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简介 


整理 爬虫 技术 的 各 种 叫 法 ， 解 释 为 何 叫做 爬虫 ， 为 
何 又 被 叫做 模拟 登陆 ， 与 有 疏 虫 有 关 的 一 些 东 下， 总 
结 爬 虫 的 核心 步骤 和 阶段 ， 以 及 每 一 步 的 各 种 细 姜 
包括 优 缺 点 和 其 他 涉及 的 内 容 ， 继 续 解 释 为 何 要 用 
疏 虫 框 凡 ， 总 结 常见 语言 的 各 种 爬虫 框架 ， 总 结实 
现 爬 虫 的 不 同方 式 和 爬虫 的 不 同步 骤 之 间 的 对 应 关 
系 ， 用 不 同 语言 如 何 与 爬虫 ， 并且 给 出 弟 见 语言 如 
Python、C# Go、Java、PHP 等 的 具体 爬虫 实例 
代码 ， 最 后 总 结 朴 虫 相关 名 词 和 概念 。 


源码 + 浏览 + 下 载 


本 书 的 各 种 源码 、 在 线 浏 览 地 址 、 多 种 格式 文件 下 
载 如 下 : 


Gitbook 源 码 


。 crifamr/crawl your_ data_spider _ technology: 让 


取 你 要 的 数据 : 爬虫 技术 


如 何 使 用 此 Gitbook 源 码 去 生成 发 布 为 电子 书 


详 见 : crifan/gitbook template: demo how to use 
crifan gitbook template and demo 


在 线 浏览 


。 爬 取 你 要 的 数据 : 爬虫 技术 book.crifan.org 
。 爬 取 你 要 的 数据 : 爬虫 技术 crifan.github.io 


离线 下 载 阅读 
。 疏 取 你 要 的 数据 : 爬虫 技术 PDF 


。 疏 取 你 要 的 数据 : 爬虫 技术 ePub 
。 疏 取 你 要 的 数据 : 爬虫 技术 Mobi 


版 权 说 明 


此 电子 书 教程 的 全 部 内 容 ， 如 无 特别 说 明 ， 均 为 本 
人 原创 和 整理 。 其 中 部 分 内 容 参 考 自 网 络 ， 均 已 备 
注 了 出 处 。 如 有 发 现 侵犯 您 版 权 ， 请 通过 邮箱 联系 
我 aamin 艾 特 crifan.org， 我 会 尽快 删除 。 谢 谢 
合作 。 
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更 多 其 他 电子 书 


本 人 crifan 还 写 了 其 他 1oo+ 本 电子 书 教程 ， 感 兴趣 
可 移 步 至 : 


crifan/crifan_ebook_readme: Crifan 的 电子 书 的 使 
用 说 明 
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爬虫 简介 


原文 : https:Wbook.crifan.org/bookSs/ 
crawl your_ data_spider technology/website/ 
Spider_intro/ 


谎 虫 , 此 处 主要 指 的 是 ， 能 够 从 网 站 的 页 面 或 app 
等 数据 源 中 爬 取 到 你 所 需要 的 数据 的 代码 程序 。 
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怜 虫 的 叫 法 


原文 : https:Wbook.crifan.org/bookS/ 
crawl your_ data_spider technology/website/ 
spider_intro/spider_ various_name.html 


疏 虫 有 很 多 种 常见 的 叫 法 ， 整 理 如 下 : 
*。 怜 虫 
O 弟 见 英文 说 法 : 
国 <rawler= 爬 取 数 据 的 工具 


国 -rawl 英 文 原意 : 爬 ， 爬 行 
国 spiaer= 蜘 蛛 = 像 师 蛛 捕获 昆虫 一 样 你 
去 捕获 你 要 的 数据 


加 sbider 英 文 原意 : 蜗 蛛 


国 为 何 把 爬 取 数据 的 工具 叫 
做 蜂 蛛 ， 见 后 续 的 类 比 解 
释 : 为 何 叫 爬 虫 
国 scrapez= 乔 取 到 你 想 要 的 数据 的 工 


县 


一 一 


转 scrape 英 文 原意 : 乔 取 
国 gzab= 抓 取 你 要 的 数据 的 工具 


国 rab 灿 文 原 意 : 摆 取 ， 夺 取 
。 疏 取 数据 


O 单 见 英文 说 法 : 


国 -rawl Qata=crawlLindg qdqata 
团 SCrapind qdqata 
轿 grabbing data 


。 疏 取 网 站 = 疏 取 网 页 
O 剃 见 英文 说 法 : 


国 -rawl1 website 


。 模拟 登录 
O 常见 英文 说 法 : 
国 =mulates ogin 


国 Lodgin emulatiIion 


O 为 何 〈 把 爬虫 ) 叫做 模拟 登录 ? 


国 简 答 : 


国 怜 虫 在 需要 用 户 登 录 的 场景 中 应 
用 时 的 叫 法 
国 详解 : 


国 对 于 一 些 情况 : 想 要 爬 取 很 多 网 
站 上 的 数据 ， 需 要 用 户 〈 使 用 账 
号 和 密码 等 方式 ) 去 登录 后 才能 
获取 到 

国 所 以 要 移 去 模拟 (用户 ) 登录 ， 然 
后 才能 怜 取 数据 

国 而 模拟 登录 的 过 程 ， 有 时 候 或 者 
经 划 ， 比 后 续 的 爬 取 数据 更 难 ， 
更 复杂 

国 所 以 此 时 的 爬 取 全 称 
是 先 要 模拟 用 户 登 录 后 再 去 爬 取 数据 

国 也 就 常 简 称 为 模拟 登陆 


国 用 模拟 登陆 指 代 爬虫 
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为 何 叫 扑 里 


原文 : https:Wbook.crifan.org/bookS/ 
crawl your_ data_spider technology/website/ 
spider_ intro/why_called_spider/ 


通过 下 面 类 比 ， 来 解释 为 何 被 叫做 爬虫 : 


对 比 现实 世界 的 蜘蛛 计算 机 世界 的 互 


网 联网 
sa 辐 
岗 蛛 咏 你 念 昌 自 记 
织 网 = 用 蜂 蛛 网 “ 写 怜 虫 代码 育 
诱 三 Crawler=Spiader 


捕获 = 抓 自己 要 ， 怜 取 = 抓 包 自己 要 
的 东西 = 食物 = 昆虫 的 数据 蝇 (并 保 
租 存 ) 


相关 说 明 


。 互联 网 : 是 一 个 包含 众多 资源 的 大 网 络 


O 狭义 上 说 ， 主 要 指 的 是 : 
国 Web 领 域 = 各 种 网 站 = 网 页 


国 里 面 有 各 种 〈 我 们 想 要 爬 取 的 ) 
效 据 


国 比如 想 要 怜 取 汽车 的 车 型 
车 系 ， 可 以 从 汽车 之 家 等 网 
站 怜 取 
〇 广义 上 说 包含 : 


国 (上 面 提 到 的 ) 各 种 网 站 = 网 页 
国 各 种 app 


国 包括 各 种 anaroia 和 ios 中 的 app 
软件 

国 比如 想 要 爬 取 别人 的 app 中 的 一 
些 数 据 


国 比如 爬 取 大 众 点评 app 中 的 
商家 和 用 户 评论 数据 
图 各 种 其 他 渠道 、 终 端的 数据 和 资源 


图 微 信 公众 号 


国 理论 上 也 是 属于 网 页 
图 小 程序 


图 微 信 小 程序 
图 支付 宝 小 程序 


Ar Ar 
园 三 村 


帐 
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让 虫 应 用 


原文 : https:Wbook.crifan.org/bookS/ 
crawl your_ data_spider technology/website/ 
spider_intro/spider_application.html 


局 虫 应 用 领域 


疏 虫 的 应 用 领域 ， 从 广义 上 来 说 ， 人 类 用 网 络 能 做 
啥 ， 爬 虫 就 能 干 啥 。 


对 于 爬虫 的 具体 应 用 领域 ， 借 用 和 疏 虫 密切 相 天 
的 IP 代 理 技 术 的 应 用 来 说 明 : 


O 游戏 试 玩 
O 游戏 挂机 
O QQ 曹 销 
O 宝贝 收藏 
O 下 载 补 量 


国 网 购 下 单 


国 使 用 软件 和 目 动 抢 票 、 抢 购 手 机 ， 
提高 效率 
O 秒杀 抢购 
。 数据 采集 应 用 


O 爬虫 抓 取 
O 页 面 采集 


国 编 与 疏 虫 采集 网 络 公 开 数 据 ， 分 析 得 
出 全 面 的 市 场 分 析 报 告 


O 投票 点 和 质 


国 投票 发 帖 
O 网 站 注册 
O 效果 回访 
〇 网 站 搭建 
。 优化 推广 方案 


O 竞价 优化 
电 商 优化 
邮件 群发 
打 码 投票 
论坛 发 由 
问答 推广 


人 


疏 虫 应 用 举例 


自动 登录 = 签到 脚本 


对 于 需要 用 户 登 录 的 网 站 或 系统 ， 如 果 用 疏 虫 能 够 
成 功 模拟 登录 的 话 ， 则 往往 就 可 以 实现 ， 其 他 一 些 
人 所 需要 的 功能 : 


。 用 来 自动 登录 系统 -》 叫 做 目 动 登录 


〇 用 途 有 很 多 


国 比如 
国 每 天 用 来 签到 -》 爬虫 签到 = 
爬虫 签到 脚本 
国 比如 


国 有 人 和 弄 过 百度 贴吧 的 
签到 脚本 

国 自制 BILIBILI 绊 幕 爬 
取 ， 签 到 ， 抢 楼 等 扑 
里 

国 有 人 用 来 用 爬虫 在 各 
大 机 场 目 动 签到 获取 


流量 
国 每 天 理财 网 站 登陆 签 
到 获取 积分 
国 浦发 信用 卡 目 动 签 到 
国 总 之 还 是 那 句 话 


国 5 以 用 爬虫 来 干什么 


国 取决 于 你 
的 想象 : 你 想 用 
来 干什么 

国 和 你 自己 
的 技术 水 平 : 你 自 
己 能 不 能 搞定 ， 
能 不 能 实现 

国 模拟 用 户 发 布 内 容 


国 就 变 成 了 


国 自动 发 帖 ( 脚本 ) 
国 自动 回复 (脚本 ) 


模拟 浏览 器 操作 
既然 慌 虫 可 以 慌 取 网 页 ， 那 么 理论 上 束 广 持 ， 用 来 


模拟 用 户 去 点 击 网 页 ， 去 实现 模拟 用 户 的 操作 ， 用 
爬虫 ， 也 叫做 上 自动 化 脚本 ， 去 模拟 浏览 器 的 各 种 操 
作 。 


而 对 于 模拟 浏览 器 操作 方面 ， 和 爬虫 天 系 很 密切 ， 
不 过 又 属于 不 同 的 领域 。 


呈 入 口 品 


模拟 浏览 器 =web Browser Automation ， 这 个 领域 ， 


又 有 很 多 不 同 的 框架 ， 工 具 ， 和 技术 。 
k 比 如 : 
。 Selenium 


O Selenium 知 识 总 结 


。 无 头 浏览 器 =Heaqless Browser : 


O 含义 : 没有 头 的 ， 没 有 界面 的 浏览 器 ( 内 
核 ) 


国 -》 因为 与 代码 控制 和 操作 浏览 器 
时 ， 往 往 不 需要 ( 像 普 通用 户 用 浏览 
器 看 网 页 时 那样 ) 看 界面 


国 -》 专 | ] 用 于 模拟 浏览 器 行 
用 于 模拟 浏览 器 ， 提 供 接口 供 你 


操作 浏览 器 


O 芝 见 工具 
国 Phantomjs 
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爬虫 的 核心 多 辑 


原文 : https:Wbook.crifan.org/bookSs/ 
crawl your_ data_spider_ technology/website/ 
core_logic/ 


整体 概览 和 技术 路 线 图 


疏 虫 的 核心 逻辑 和 整体 结构 和 技术 路 线 图 ， 可 以 通 
过 一 图 胜 干 言 来 表示 : 


。 在线 浏览 


GO Spider Roadmap 20200714 - ProcessOn 
。 


E (全 ec 
恒 一 汪 、，c 全 二 
Er 名 7 国 Appec 
ES 光一 莹 一 = = 
和 0 EB 
1E3 作 配 一 
]- 江 
一 每 
攻 产 亿 ， 
记 }-G 2 =- 
1 E 
结 : 
es | 三 | 
三 1 二 
号 SEE | 
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昨 


核心 逻辑 和 原理 
接 下 来 的 文字 解释 ， 是 对 上 述 核心 逻辑 的 详细 诠 


释 : 
礁 虫 的 最 核心 的 逻辑 和 原理 ， 主 要 包含 : 
。 爬虫 的 核心 流程 


〇 先 要 抓 包 分 析 
〇 再 去 写 聆 虫 代码 
。 疏 虫 的 核心 步骤 = 核心 功能 : 写 爬 虫 之 前 ， 要 搞 
懂 爬 虫 主要 做 了 哪些 事情 


〇 下 载 
C 〇 提取 
O 保存 
。 疏 虫 的 典型 实现 方式 : 然后 再 去 搞 懂 有 哪些 方式 
去 实现 你 的 爬虫 


〇 裸 写 代码 
GO 用 库 与 
〇 用 框架 与 


国 再 去 搞 懂 : 


国 为 何 要 用 框架 
国 以 及 有 哪些 语言 的 哪些 怜 虫 框架 
国 然后 才 是 选用 合适 的 语言 的 合适 的 爬 
虫 框架 ， 去 基于 框架 写 爬 虫 代码 


下 面 详 细 解 释 。 
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怜 虫 的 核心 流程 


原文 : https:Wbook.crifan.org/bookSs/ 
crawl your_ data_spider_ technology/website/ 
core_logic/core_process.html 


如 前 面 所 说 ， 疏 虫 的 最 核心 的 流程 ， 其 实 就 是 2 个 阶 


又 ， 


O 〇 搞 清 楚 ， 网 站 中 有 哪些 url 网 址 的 网 页 需要 
去 抓 取 ，app 中 有 哪些 页 面 背 后 对 应 着 哪 
些 api 接 口 需要 去 抓 取 

O 以 及 每 个 url 或 apji 中 ，Request 中 都 需要 传 
递 哪些 参数 ， 比 如 GET 请 求 有 哪些 query 
parameter ，POST 有 哪些 Body 的 Json 参 
效 

O 才能 返回 正确 的 ， 期 性 的 Response， 才 
能 获取 到 自己 要 的 数据 

O 〇 如 此 ， 搞 懂 要 抓 取 哪 些 数 据 ， 用 什么 逻辑 
才能 获取 到 这 些 数 据 ， 是 写 代 码 真正 实现 


这 些 远 辑 ， 获 取 到 真正 的 数据 的 前 提 和 基 
而 
。 再 去 写 怜 虫 代码 


O 然后 才能 根据 前 面 已 经 搞 懂 的 从 无 到 有 如 
何 抓 取 到 你 要 的 数据 的 远 辑 

〇 选择 合适 的 方式 ， 是 裸 写 代码 ， 还 是 用 库 
实现 ， 还 是 用 爬虫 杠 习 

O 去 根据 对 应 情况 ， 写 代码 去 下 载 页 面 或 效 
据 ， 再 去 裸 写 代 码 找 合 适 的 库 实现 规则 去 
提取 要 的 数据 ， 最 终 保 存 效 据 


下 面 接着 去 详细 解释 ， 如 何 抓 包 分 析 ， 以 及 如 何 写 
爬虫 代码 。 
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怜 虫 的 核心 步 又 


原文 : https:Wbook.crifan.org/bookS/ 
crawl your data_spider technology/website/ 
core_logic/main_step.html 


接 下 来 介绍 爬虫 的 原理 、 过 程 和 步骤 ， 以 及 相关 涉 
及 到 的 知识 。 


从 原理 上 来 说 ， 与 爬虫 去 扑 数 据 的 过 程 ， 最 核心 的 


就 这 3 步 : 


。 下 载 =qown1load 
。 提取 =extract 
。 保存 =save 


下 面 详细 解释 每 一 步 的 各 种 细 亡 : 
。 下 载 = 下 载 网 页 
O 做 了 什么 : 请 求 网 址 或 api 接 口 ， 去 下 载 


返回 
OF 得 到 什么 : html 网 页 或 json 字 符 串 


O 涉及 到 


图 〈 尤其 是 新 手 需要 学 习 ) Http 基 本 知 


起 
国 Recsuest 
国 Method 


国 <cET 

国 PosT 

国 等 
国 Headqer 


国 User-Agent 
国 <cntent-Type 
国 Accept 
国 Authorization 
国 等 

国 cookie 

国 Boay 


国 Jata 


国 jsocn 
国 Response 


围 status code 


国 Heaqer 
国 cocokis 
图 Body 


转 ata 
国 ]Jjson 
图 教程 : 主 济 
数据 格式 : 
JSON 
图 教程 : HTTP 知 识 总 结 
国 如 果 被 爬 方 (网 站 ，app 等 ) 
需要 用 户 登 录 后 才能 看 到 数据 
国 用 技术 绕 过 限制 
国 模拟 登陆 
国 先 要 抓 包 分 析出 
登录 逻辑 
国 再 用 代码 模拟 用 


户 登 录 
国 做 了 一 些 反 妥 措施 


国 验证 码 


国 用 技术 绕 过 限制 
国 验证 码 识别 
国 〈 用 第 三 
方 ) 打 码 平台 
IP 限 制 + 抓 取 频 率 限 制 
国 用 技术 绕 过 限制 


国 IP 代 理 池 
国 设置 抓 取 
的 间隔 时 间 
身份 限制 


国 Http 的 Headers 


加 UA=User-Adent 


国 被 爬 网 站 所 含 页 面 层级 很 多 


图 抓 取 策 略 


深度 优先 遍历 策略 
宽度 优先 遍历 策略 

反 向 链接 数 策略 

Partial PageRank 策 略 
OPIC 策 略 策略 


图 大 站 优先 策略 
。 提取 数据 


O 做 了 什么 : 从 (返回 的 ) 网 页 
(的 html，js 等 ) 或 json 中 提取 

O 得 到 什么 : 自己 需要 的 内 容 

〇 涉及 到 


国 字符 编码 的 问题 


国 如 果 搞 不 清 编 码 ， 就 容易 出 现 各 
种 乱码 问题 
国 需要 学 习 相 关 编 码 知识 


图 教程 : 子 符 编 码 详解 与 应 
用 
国 【整理 Book】Python 
心得 : 字符 串 和 字符 
编码 


转 htm1L 的 meta Charset 
国 编码 检测 


国 Python 


国 -haraet 


国 如 果 被 爬 方 做 了 反 疏 
国 数据 加 密 
国 用 技术 组 过 
国 找到 解密 的 逻辑 和 方法 


国 教程 : 安 卓 应 用 
的 安全 和 破解 


国 【已 解决 】 
莹 试 破 解 小 
花生 app 安 
卓 apk 希 望 
看 到 api 返 回 
的 json 中 的 J 
的 解密 算法 
得 到 明文 


。 保存 数据 


O 做 了 什么 : 把 数据 保存 到 对 应 的 地 方 

O 〇 得 到 什么 : 包含 了 我 们 要 的 特定 格式 的 数 
据 的 文件 或 效 据 库 

O 保存 成 不 同 格式 : 


国 文件 


国 七 又 七 


国 -=sv / =xcel1 


国 教程 : Python 心得 : 操作 
CSV 和 Excel 
国 数据库 


国 myYySdJ 


图 教程 : 主流 关系 数据 库 : 
MySQL 
转 mondgoab 


国 教程 : 主流 文档 型 数据 
库 : MongoDB 
国 SGqJ1ite 
图 等 等 
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爬虫 的 典型 实现 方式 


原文 : https:Wbook.crifan.org/bookS/ 
crawl your_ data_spider technology/website/ 
core_logictypical_implement_ type.html 


实现 爬虫 的 方式 有 很 多 ， 根 据 复 杂 度 ， 可 以 分 成 典 
型 的 3 种 方式 : 


。 裸 写 爬 虫 代码 


O 解释 : 在 自己 了 解 arTP、 爬 虫 等 相关 背景 
知识 的 前 提 下 ， 用 相对 比较 原始 的 方式 ， 
用 内 置 库 实现 爬虫 全 部 功能 
O 优点 : 更 贴近 和 了 解 底 层 技术 
O 缺点 : 要 求 熟悉 辰 层 技术 ， 相 对 用 已 有 的 
库 ， 与 起 来 比较 复杂 
。 用 第 三 方 库 写 爬虫 代码 


〇 解释 : 用 第 三 方 的 、 更 强大 、 更 好 用 ， 网 
络 库 下 载 内 容 ， 内 容 提取 库 提 取 数 据 
O 优点 : 省 心 ， 高 效 


O 〇 O 缺点 : 


国 要 额外 引入 库 ， 且 要 了 解 如 何 使 用 
国 对 于 新 手 ， 往 往 是 直接 用 了 第 三 方 库 
后 ， 不 了 解 内 部 机 制 
。 用 礁 虫 框架 


O 用 成 熟 的 也 更 复杂 和 强大 的 爬虫 框架 ， 
框 滋 帮 你 做 重复 工作 ， 的 
ee 上 数据 


O 优点 : 适合 更 复杂 的 爬虫 任务 ， 充 分 利用 
oO 调度 ，url 去 重 等 等 高 级 功能 
O 缺点 : 


国 很 多 适合 杀 鸡 用 牛刀 ， 比 较 重 ， 不 够 
轻 量 级 

国 出 了 问题 ， 需 要 熟悉 内 部 机 制 才 容易 
解决 问题 


下 面 详细 解释 ， 对 于 爬虫 的 核心 步骤 中 ， 不 同 实现 
方式 的 优 缺 点 和 所 涉及 内 容 : 


.下 载 


O 裸 写 爬虫 代码 


国 举例 


国 Python 的 urllib 
转 c# 的 HttpWebReauest 


十 HttPWebRespPonse 


国 crifanLib.cs 之 Http 
O 用 第 三 方 库 与 爬虫 代码 


国 举例 
国 Python 


围 edGuestSs 


。 提取 
〇 提取 数据 的 方式 : 
国 从 json 中 提取 想 要 的 内 容 


国 用 json 库 ， 把 json 字 符 串 转换 为 
json 对 象 (dict， 字 典 ) 即 可 


国 无 需 (html ) 解析 相关 的 
库 
国 尝 见 的 库 


国 Python 


国 Json 
国 下 # 


国 Newtonsoft .Json 


国 JavVaScriptSerializeLr 


国 从 html ,js 等 内 容 中 提取 想 要 的 内 容 
图 裸 写 爬 虫 代码 
图 正则 


国 应 用 广 沁 的 超 强 搜 
乏 : 正则 表达 式 
国 Python 


国 =e 模 块 


图 Python 中 的 
正则 表达 
式 : re 模块 
详解 
国 XPath 
国 XPath 知识 总 结 
国 用 第 三 方 库 写 爬虫 代码 


国 Python 


国 1xml 


国 【记录 】Python 
党 试用 lxml 去 
解析 html - 在 路 

下 


国 BeautifulSoup 


国 网 页 解析 利器 : 
BeautifulSoup 
国 PYQuUeLYy 


国 HTML 解 析 库 


Python 版 
jQuery : 
PyQuery 
图 python-goose 
国 等 
国 <# 


国 HTMI 解 析 


国 HtmlAgilityPack 
国 Sgm1 
转 Java 


图 JSoOUP 


。 保存 
〇 裸 写 爬 虫 代码 
国 自己 写 代 码 保存 到 对 应 文件 或 数据 库 
中 
〇 用 库 写 爬虫 代码 


国 用 库 去 将 数据 保存 到 文件 或 数据 库 中 
〇 用 礁 虫 框架 


国 框 习 内 置 接口 
国 PySpider 


国 用 内 置 接口 ， 上 自动 保存 数 
据 到 对 应 数据 库 中 


不 同 实 现 方式 和 爬虫 不 同步 骤 的 对 应 天 
系 


下 面 以 Python 语言 为 例 ， 来 解释 不 用 爬虫 的 实现 方 
式 和 不 同步 骤 之 间 的 对 应 关系 : 


下 载 (网 “提取 (内 保存 ( 数 


页 ) 容 ) 据 ) 


自己 裸 与 uIETTID 工 txt/csv 
Python 代码 

用 各 种 zedquestS BeautifulSsoag 刀 xml 
Python 库 组 / 广 pymysd1l 
合 

用 框 redquestas (PySspider 内 (PySspider 内 


架 Pvspider (Pysbider 的 是 If.craw]) 置 ) 各 


的 )Pycuery 种 数据 库 ( 接 
口 ) 
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抓 包 分 析 


原文 : https:Wbook.crifan.org/bookSs/ 
crawl your_ data_spider_ technology/website/ 
capture_packagey/ 


什么 是 抓 包 


不 论 用 哪 种 方式 去 写 爬 虫 代码 ， 对 于 下 载 来 说 ， 具 
体 要 请 求 网 站 ur1 是 什么 ， 调 用 什么 api 接 口 ， 传 递 
什么 参数 ， 以 及 获取 到 数据 后 ， 用 什么 规则 提取 出 
需要 的 数据 等 等 内 容 ， 都 需要 事先 去 分 析 和 研究 清 
楚 ， 这 个 抓 取 网 络 请 求 的 数据 包 的 过 程 ， 一 般 叫 
做 : 抓 包 


即 : 
。 下 载 


需要 访问 的 网 页 ur1 地 址 或 api 接 口 是 什 么 


国 以 及 传递 什么 参数 
。 提取 


〇 O 对 于 返回 数据 ， 需 要 抓 取 具 体 哪 一 部 分 
国 对 应 的 数据 的 提取 规则 是 什么 
提示 : 


虽然 对 于 爬虫 的 核心 流程 是 先 要 抓 包 分 析 搞 清楚 逻 
辑 ， 然 后 才能 去 与 爬虫 代码 ， 不 过 实际 上 很 多 时 
候 ， 是 边 分 析 ， 边 与 代码 的 。 


尤其 是 对 于 一 些 复杂 的 网 站 或 app 来 说 ， 往 往 是 分 
析 的 同时 ， 也 要 与 一 些 代 码 去 验证 和 测试 抓 取 的 远 
辑 是 否 行 得 通 的 。 


总 之 ， 对 于 爬虫 的 流程 : 


。 丈 辑 上 是 : 先 抓 包 分析 ， 再 与 爬虫 代码 
。 买 际 上 (往往 ) 是 : 边 抓 包 分 析 ， 边 与 代码 


普通 网 页 : 抓 包 分 析 ， 一 般 比较 简单 
。 复杂 网 站 : 对 于 需要 登录 才能 获取 到 数据 ， 且 加 


了 验证 码 等 做 了 其 他 反 疏 措施 和 手段 的 网 站 和 
app， 抓 包 分 析 起 来 ， 一 般 都 很 复杂 


O 复杂 网 站 的 抓 包 分 析 和 破解 ， 往 往 比 (之 
后 的 ， 单 纯 的 ) 写 爬 虫 去 下 载 + 提取 + 保 
存 ， 要 难 多 了 


抓 包 单 用 工具 


我 们 要 与 爬 虫 去 爬 取 的 数据 ， 从 数据 源 的 形态 分 ， 
大 概 分 两 类 : 


。 网 站 = 网 页 = 网 站 中 的 各 种 网 页 
。 app=app 中 内 部 发 出 的 请 求 设 计 的 api 接 口 


根据 要 抓 取 的 数据 的 源 不 同 ， 常 用 的 一 些 辅助 分 析 
工具 有 : 


。 网 站 抓 包 分 析 


〇 O chrome 的 开发 者 工具 


国 Windows: ctrl + Shitft + 工 


国 Mac: commanq + 人 ETCOD 二- 工 


国 如 何 使 用 


图 官网 资料 : Chrome 开发 者 工具 
〇 IE 的 Fl12 


国 如 何 使 用 


国 【整理 】 各 种 浏览 器 中 的 开发 人 
员工 具 Developer Tools : IE9 的 
F12 ,Chrome 的 Ctrl+Shift+J ， 
Firefox 的 Firebug 

国 【总 结 】 浏 览 器 中 的 开发 人 员工 
具 (1IE9 的 F12 和 Chrome 的 Ctrl 
+Shift+1 ) -网 页 分 析 的 利器 

国 【教程 】 如 何 利 用 IE9 的 F12 去 
分 析 网 站 登陆 过 程 中 的 复杂 的 
(参数 ，cookie 等 ) 值 (的 来 
源 ) 

国 【教程 】 手 把 手 教 你 如 何 利用 工 
有 具 (IE9 的 F12) 去 分 析 模 拟 登 陆 网 
站 (百度 首页 ) 的 内 部 逻辑 过 程 


团 Firefox 的 firebug 


。 app 抓 包 分 析 
C 〇 charles 


国 教程 : app 抓 包 利器 : Charles 
。 通用 工具 


( WiITreshark 
CD Postman 


国 用 于 对 于 api 去 设置 参数 并 发 送 请 求 
测试 是 否 能 获取 数据 
图 教程 : API 开 发 利器 : Postman 
C 〇 Fiddler 
C 〇 HELPWatcher 


具体 怎么 抓 包 


先 要 摘 靖 楚 上 自己 想 要 抓 取 什么 数据 ， 然 后 再 去 用 工 
具 辅 助 分 析出 网 页 或 app 等 数据 源 中 ， 如 何 一 步 步 
的 获取 对 应 数据 ， 找 到 期 间 所 要 依次 访问 哪些 url 或 
api， 传递 什么 参数 ， 最 终 获 取 到 所 要 的 数据 。 


下 面 就 来 用 实际 例子 来 说 明 如 何 抓 包 。 
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抓 包 分 析 网 页 


原文 : https:Wbook.crifan.org/bookS/ 
crawl your_ data_spider technology/website/ 
capture_package/analysis_htmyl/ 


对 于 如 何 抓 包 分 析 网 站 网 页 类 的 内 容 ， 下 面 用 具体 
例子 来 详细 解释 。 
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静态 网 页 


原文 : https:Wbook.crifan.org/bookS/ 
crawl your_ data_spider_ technology/website/ 
capture_package/analysis_html/static.html 


以 抓 取 汽车 乙 家 中 车 型 车 型 数据 为 例 解 
释 如 何 抓 包 


下 面 就 以 ， 想 要 抓 取 汽车 之 家 网 站 中 的 车 型 车 系数 
据 为 例 ， 来 解释 ， 如 何 用 抓 包工 具 辅 助 分 析 ， 依 次 
访问 哪些 页 面 ， 之 后 如 何 提取 ， 才 能 得 到 我 们 要 的 
效 据 。 


具体 过 程 详 见 : 
。 PySpider 案 例 . Python 爬虫 框架 : PySpider 


O 汽车 之 家 的 品牌 等 数据 
O 汽车 之 家 的 车 型 详细 数据 


国 过 程 
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动态 网 页 


原文 : https:Wbook.crifan.org/bookS/ 

crawl your_ data_spider technology/website/ 
capture_package/analysis_htmyl/ 
dynamic.html 


。 动态 网 页 


〇 是 相对 于 静态 网 页 来 说 的 

〇 指 的 是 ， 通 过 爬虫 抓 取代 码 得 
往往 只 是 (用 户 通过 浏览 器 看 
容 的 ) 其 中 一 部 分 


上 的 源码 ， 
1 的 全 部 内 


| 


图 剩 下 的 内 容 ， 需 要 动态 加 载 


国 往往 需要 我 们 额外 再 发 出 请 求 获 
取 对 应 内 容 


国 前 提 是 需要 调试 分 析 网 页 
内 容 加 载 的 逻辑 


相 天 内 容 : 


【教程 】 手把手 教 你 如 何 利用 工具 (IE9 的 F12) 去 分 
析 模 拟 登陆 网 站 (百度 首页 ) 的 内 部 逻辑 过 程 


【记录 】 模 拟 登 陆 google 
【教程 】 如 何 抓 取 动态 网 页 内 容 


【教程 】 以 抓 取 网 易 博 客 帖 子 中 的 最 近 读 者 信息 为 
例 ， 手 把 手 教 你 如 何 抓 取 动态 网 页 中 的 内 容 


TODO : 


找 个 ， 需 要 登录 的 网 站 ， 或 者 是 是 网 页 内 容 需 要 后 
续 执 行 js 才能 加 载 的 例子 ， 再 去 用 抓 包 工具 模拟 登 
录 ， 或 分 析 数 据 是 如 何 加 载 的 。 


举例 : Chrome 分 析 大 众 点 评 某 页 面 获 
取 店 铺 数据 后 用 PySpider 实 现代 码 并 下 
载 效 气 

此 次 通过 举例 来 说 明 ， 如 何 : 


。 用 Chrome 分 析 逻 辑 后 
。 再 去 (PySpider 的 ) 代码 实现 


期 间 要 注意 的 是 : 要 一 点 点 模拟 各 种 参数 ， 才 能 获 
取 到 数据 ， 否 则 会 出 现 各 种 错误 


要 分 析 的 网 址 : 
http:/www.dianping.com/Ssuzhouch70/g27762 


用 Chrome 打 开 后 ， 是 可 以 获取 到 数据 的 : 


本 吧 帮 本 趟 雪 友 ww danpngcomSuzh5Uc1701627762 国 了 


BRA+ 人气 + 总体 评价 + 价格 + 放 -E 国 罗 。 口 优 天 民 
合 你 可 能 喜欢 


新 东方 STEAM 斯 林 曙 少儿 次 

Daoo 

由 乐 少儿 英语 ( 邻 瑞 校区 ) 别 PT 
2305 ”5 个 产品 


售 9.9 元 ， 价 值 200 元 吻 贝 未 周末 主题 活动 课 2 课 时 


rmance Memory 。 Application 。 Securty 。 Audits 


但 是 PySpider 中 ， 用 代码 : 


#!1V/usr/pin/env Python 

# 一 *=- enmcoadjing: utE=-8 一 * 一 

# Createdq on 2019-04-15 14:56:12 
世 Project: DianpingchilLrenEng1lLish 


下 关 G@ 夺 但 XS 王 QeT jos 本 biS 全 汪峰 而 和 Te 大 TimDG 天 用 去 


WCGOIS 
mmOusEaaiSGh 
import codqecs 
Import base64 
DG E 汪 GO 

人 的 汪 eeNexv 
Impott 七 ime 
1ImPort 上 Fe 

WIIDGNeE EC SS 

# import qdqatetime 


from qdqatetime import qdqatetime，， 芋 imedelta 
非 莫 划 莫 划 非 提 划 莫 间 莫 莫 提 莫 间 莫 莫 提 枯 提 非 莫 提 莫 提 非 井 提 莫 划 非 # 井 提 井 萌 莫 井 提 井 划 厅 井 井 井 朝 厅 井 提 
# Const 


非 莫 提 莫 划 提 非 莫非 提 非 莫非 提 莫 划 提 提 非 提 提 非 划 提 提 莫 划 提 提 非 提 提 井 提 提 提 林 井 提 提 厅 提 提 井 厅 提 间 划 


站 SC 下 玉 症 和 和 忆 二 下 让 全 基站 让 二 时， 全 下 二 玫 王 且 攻 生生 短 S Json" 


ConsSstMainCityEFEilLename = "mainCityWithLevelLList.] 


constUserAdentMacChrome = "Mozilla/5.0 (Macintos: 


gHost = "http://Lwww.dqianping.comn 


CategoryLevel1Parentchild = "ch70"# 全 部 分 类 -> 亲 3 
CatedgoryLeve1l2ChildqEgnglish = "g27762" # 幼儿 教育 - 


非 莫 提 莫 划 提 # 非 提 提 非 莫非 提 莫 划 提 提 非 提 提 井 划 捍 提 划 提 提 划 提 提 非 划 提 提 井 井 提 提 井 提 提 井 厅 提 井 


乾 且 BeoaEckESDScEETIEEERUTICLn OnS 


非 莫 提 莫 划 提 # 莫 提 提 非 划 提 提 非 提 提 提 非 提 提 非 莫非 提 莫 划 提 提 莫 提 提 非 划 捍 提 井 提 提 莫 提 提 井 厅 提 间 划 


非 非 莫 莫 间 莫 ## 提 莫 间 划 间 提 非 间 划 间 提 划 间 划 ## 提 厅 间 划 ## 井 划 间 划 ## 提 厅 间 划 ## 井 井 间 划 井 井 井 间 划 井 #: 
站 十 石 
非 非 莫非 磊 莫非 提 非 间 划 ## 提 划 间 划 ## 提 莫 间 划 ## 提 莫 间 划 ## 井 划 间 划 ## 提 井 间 划 间 提 井 间 划 井 井 井 间 井 井 左 : 


Class Handqlexr (BaseHandqler) : 
用 eeiopaEe | 
CONECEEITYIEORES LEOIOE 


EU RS 


全 ED 扩 = 全 本 这 

ceaeensse 六 
"UseLr-Adgent" : constUSeLrAdentMacChromt 
"Accept": "applLlication/Jjson，texty/ 林 ja: 
eeonkemnesTvEe vappeationy 多 58onn ， 
GOaanEaingl Comn， 
# "X-Reduestedq-With" : "XMLHttPRedues: 


GeEonESs 世 asktses 芭 区 
后 汪 下 和 和 让 从 


SIEHNEEEISeaiieleeausi 二 (全 


Qef realStatrt (selft) : 


世 Eor aqebug 


mnmnnmn 


eachMaincCity={'"cityAbpbrcode ': SU2T， TcL 
cityEnName=Suzhou 
全 再 训 可 富生 天 让 起 和 二 总 WWNWEGpnPindg 
mnmnm 
GE 二 的 末 RE5ESNADa 且 二 汪 OUEIEIGRS AAA 卫 @ 四 基 =909 9 
SEC 有 人 
9 区 ci 了 光芒 
Callback=selftf.childqEnglishCcal1Lback 


Qqef childqdEng9lishCcallpbpack(selLIf，Lresponse) : 
reSsPUTJL = esponse.uzr1] 
Pint ("reSsSPULT1L= 和 SS" 各 YeSPUTLI) 
ES 有 炎 e 广 二 汪 es 区 oOSe 二 ex 


O. 


PEInt ("reSPTIText=$5Ss" 当 YeSPTIText) 


上 <Ul Class="shop= 工 s 七 "> 
非 <1L1i data-shopidq="129412093" data-viei 
for eachShop in response.dqoc('ul[class=" 


O. 


Print("eachShop=ss" 名 eachShop) 


reSpPText={"customData" :{"tredqduestCodqe" :"c9847c945 


“@ 和 全 0000.6600/debug/pianpingChilrenEnalsh 


pyspider > DianpingchirenEnglish 


Decumentatien [webpAv Mode] Mede] 
FeeerrraT E 


?fatchos 《 cityabbrcode :SU8 


connect timeout"; 100， cityareaCode': ,051211 
headerssy 《 1eityBnNama'。 “suzhou'， "cityIdl 
?Meeept"， "apPlicationyjscn，text/javascript。 /3 qm0-010， 1eitgrevel'。 2，'eityNama's “苏州 
oneent-TyPent "apPlieasion/jpon"， 1eityorderrd'i 4899， "cityPyame' 


origin"y "heePi/wwnr dianpingrcom'， auzhou'，'gLat': 31.297779， "9gLng 
"gser-agent"z “Mozilla15-0 Taneoeh Jntel Mac 05 X 10_14_2) BPPleWiebKit/1537.36 (KBTHMD，1ike Gecko) 120.585586， "Brovincerd': 10y 


chrone/73，0-3683.86 Sarari1537-36 eurrenttodeLevel 。 2， botalgank' 

347 "cityLevelyloat'i 1.57 

"provinceName :江苏 省 '》 
ieyBnMamasstuzhon 


callback"; "childgnglishCallbackr childanglishBntryUrl-https/ /www dian 
Ping com/suzhou/ch70/g27762 


?Ecojeos"r "DianpingchilrenBngliahny 299 
schedulenz 1 300 childEnglishntryUrl = 


ratrlesrs 15 https//www-dianping.com/suzhou/ch70 
1827762" 
301 selE.crawl( 
302 ehildgnglishEntryUrl， 


callback-aolt.childEngliahcallback 

304 ) 

jccallbackurl=httpsz//optimus-mtat melcuan con/optimus/verifyResult*)， 

306 det childanglishcallback(selt, 

esponse): 

307 respUrl = response.url 

308 print("respUrl=$s” 
respUrl) 

3109 espmext = response text 

0 Print("respmext=se” 多 
espmext) 


312 天 ul class='slop-liste> 

313 关 <li data- 
shopid="129412093”data-viev= 1"> 

314 for eachShop in 
response,doc( "ul[class="shop~list"| 
1irdata-shopid] ).items(): 

aa5 print(weachSh 
achshop) 


人 


[enable css selectorhelper] [weo] [html] [messages] 


然后 去 参考 Chromet 中 看 到 的 参数 


本 本 有 生 本本 不 邦和 和 


民 四 Epments Consoe sources 。 Metwark 。 Penomancs Memory 。 Appicaton 为 x 


默认 二 人 气 总 体 评价 价格 特 加 日 

妆 G 四 了 Q vew 所 荆门 enupbyfame 下 Preservelog 加 Disablcache 记 ofine onlne 

aer 下 haedaauRLe 图 xHR Js css Im weda Font poe ws Nanieet oher 
1o00000ms “2000000ms 。 3000000ms 。 4000000 ms 。 5000000ms 。 6000000rms 。 7000000 ms 。 800 


海伦 多 兰 少儿 英语 (万 象 汇 中 心 ) 分 店 而 河和 
松陵 “人均 | 

XU。 Piw Rose Coous Ting 
1 ROSSURL NtP:71w dianping-comyauihadlch7a762776 


AiOUEH70 和。 Request Memod: GET 

indekmin303。 Status Code: 四 299 OK 

wapfleuco Remote Address; 293.76.216,1;89 

index minaid Refemrer Polioy: no-referrer-when-downgrade 
eadpfiaea， 


易 贝 乐 少儿 英语 ( 邻 瑞 校区 ) 2 
李 公 坦 。 人 均 Y2305 5 


导 


* Response Headers (1 和 


base-ad min.8， 
wwedpfie co 


| Request headers 。 viewsouree 
团购 : 易 贝 乐 少儿 英语 ! 仅 售 9.9 元 ， 价 值 200 元 易 贝 乐 


LaaHmbaic | Aceept text/htntapptication/xhtmtexntapptication/xntiq6.9，inageyweb 
wwdpilaco ”| age/apngyr/xiq=8,8,apptication/signed-exchangeiveb3 
zaeaaadraod | Aceapt-Eneoding: gzip，deflate 
pimeuannet | Accepttanguages zh-Chvzhiq-8.9veniqrg.8 
[ 国 saaaaaaanie | cache-contnt mcache 
易 贝 乐 少儿 英语 ( 科 文 校区 ) 圆 加 人 国 neuannet | conmecions keep-ative 
1 天 midasminga4， | cookies _Uxsdk_cuid=15a20a8282c8-05547449cf2447-12316d51-fa800-16a286al 
河 wwapmeeo。 | ca -tksdk=a6az88a8282c8-05547d49cf2d47-12316d51-fa698-16a260a8282c8; 
国 要 村 | =r3914625-2322-83f6-b7T9-4686373a858b.1555315721; aburteli cy=1i cye= 
aa os 人 Or ahai; Hm_Uvt_dbeeb575516927da776beeb1d9862bd4=1555386214，Hn_Lpvt_dbeet 
Iaadngz 780d。 | 。 516927da776beeb1d9892bd4-1555386579; _Lxsdk_sr16a243e1e79-48c-35e-2db 


www dpfie oa， Ca7C22 
Kazyoal | Hose wm-dtanping.com 
多 aoouddplec Pragma no-cache 

111 raquests16.7 MB-… St Insecure-Requests: 1 


Console Remaie devices 。 Whats New x 


海 由 亲子 游泳 (园区 中 心 ) 


译 览 中心 人均 YI3R 上 


对 于 各 种 header， 想 办 法 一 个 个 加 上 去 试 试 ， 最 终 
发 现 是 : 


给 accept 加 上 text/html 相 关 类 型 : 


# "Accept": "application/Jjson，text/Jjavascript， 


"Accept": "applLlication/Jjson，text/Jjavascripty， 


融 可 以 获取 到 数据 了 


村 更 Ce @ 不 安全 0.0.0.0:6600/debug/DianpingChilrenEnglish 
pyspider > DianpingChilrenEnglish 


人 5 


”connect_timeout": 100， 
”headers": { 

”accept": "application/json，text/javascript， 
text/html,application/xhtml+xml,application/xml;ge0.9,image/webp,image/apng,*/x; qe0.8,application/signed- 
exchangeiv=b3"， 

"content-TyPe": "apPlication/json"， 

”origin"， "http://www-dianping.com"， 

"User-agent": “Mozilla/5.0 (Macintosh; ITntel Mac 05 X 10_14_2) ApPpleWebkit/1537.36 (KBTML，1ike Gecko) 
Chrome/73-0.3683.86 Safari/537.36” 


》 

timeout ": 600 
)}， 
， 所 叶 
"callback": “childEnglishCallback” 
)}， 
"project": "DianpingCchilrenEnglish"， 
"schedule": {《 

"retries": 15 
]， 
"tagkid"s “ca9d080e79697c52fcffcf9ff5lefcc8B"， 
"url": "http://www.dianping.com/suzhou/ch70/927762"” 


> 


respUrl=http://www-dianping.com/suzhou/ch70/g27762 
respText= 

<1DOCTYPE html> 

<html> 

<head> 


<title> 苏 州 幼儿 外 语 ， 苏州 少儿 英语 [第 1 页 ]- 苏州 幼教 -大 众 点 评 网 </title> 
image/x-icon” href="//www.dpfile.com/app/Pc-common/dp_favicon.a4af753914321c8e82e4 


shortcut icon”type="image/x-icon”href="//www.dpfile.com/app/Pc-common/dp_favicon.a4af75391432 
search” type="application/opensearchdescription+xml”href="/opensearch,.xml”title=" 和 餐馆 搜索 "/> 
alternate”href="/rs6/search/6/27762/0/170/”type="application/rss+xml”title 9 


<meta name="Description”content=" 苏 州 幼 儿 外 语 ,苏州 少儿 英语 ” /> 
<meta http-equiv="mobile-agent 15;7 url=https://m.dianping.com/shoplist/1/c/27762"> 
<meta name="location”content="province= 


<1_ -基础 优化 -> 


[enable css selector helper] [web] [html] ET | messaoges 


-》 还 是 之 前 提 到 的 哪个 逻辑 : 想 办 法 参考 cnr*ome 调 
试看 到 的 所 有 的 重要 参 效 : 


ur1l 中 的 suery S 七 交工 站 可 
header 中 有 价值 的 部 分 
甚至 相关 的 cookie ) SeSSsion ，lLocalLStorade 


都 加 上 后 ， 多 数 情况 下 ， 就 可 以 获取 到 对 应 的 返 
的 数据 了 。 


七 e. 
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抓 包 分 析 app 


原文 : https:/book.crifan.org/bookSs/ 
crawl your_ data_spider_ technology/website/ 
capture_package/analysis_app.html 


有 具体 操作 步骤 ， 详 见 教程 : 
如 何 抓 包 app . app 抓 包 利 器 : Charles 
其 他 相关 内 容 : 


【记录 】Mac 中 用 Charles 去 抓 包 Android 中 的 
app 家 长 通 中 的 绘本 

【基本 解决 】 爬 取 app 数 据 少 儿 流 利 说 

【记录 】 爬 取 小 花生 app 中 自主 阅读 馆 和 亲子 
阅读 馆 中 的 有 音频 的 绘本 数据 

【整理 】Mac 中 用 Charles 抓 包 iOS 或 Android 
手机 app 中 包括 https 的 数据 
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爬虫 框 飞 


原文 : https:Wbook.crifan.org/bookSs/ 
crawl your_ data_spider technology/website/ 
Spider _ framework/ 


而 上 面 的 三 个 步骤 : 下 载 + 提取 + 保存 ， 其 中 包含 很 
多 通用 的 ， 重 复 的 逻辑 和 操作 ， 所 以 有 些 人 开发 出 
来 ， 独 立 的 爬虫 框 慷 ， 方 便 我 们 去 实现 爬虫 。 
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为 何 需要 疏 虫 框架 


原文 : https:Wbook.crifan.org/bookS/ 

crawl your_ data_spider_technology/website/ 
Spider framework/ 

why_need framework.html 


接着 来 解释 ， 为 何 要 用 爬虫 框 以 : 
。 框 如 帮 你 把 大 部 分 重复 的 工作 都 实现 了 
O 做 了 哪些 通用 的 事情 
国 下 载 
国 网 络 异常 时 自动 重 试 retry 
国 还 可 以 设置 
图 最 大 重 试 次 数 : 最 多 重 
试 几 次 
国 如 果 还 是 不 行 ， 
才 钢 为 下 载 失 败 


国 重 试 间隔 : 两 次 重 试 之 
间 的 间隔 时 间 

国 好 处 : 不 用 担心 偶尔 某 次 
网 络 有 问题 ， 就 导致 下 载 
失败 了 ， 因 为 还 可 以 自动 
重 试 

国 对 比 : 自己 裸 写 代码 ， 就 
要 考虑 这 种 异常 情况 ， 导 
致 自己 爬虫 代码 肽 肿 和 逮 
辑 复杂 


国 伦 了 太 多 精力 在 和 有 疏 
取 数 据 天 系 不 大 的 方 
面 ， 不 值得 ， 效率 低 
图 下 载 进程 的 管理 


国 同时 发 出 多 个 url 请 求 去 下 

国 有 专门 的 进程 管理 和 调度 
策略 

国 好 处 : 能 同时 并 发 多 个 请 
求 

国 对 比 : 目 己 裸 与 代码 去 下 
载 ， 往 往 同 一 时 刻 只 能 有 


\ 主 
一 个 请 


国 否则 就 要 花 很 多 精力 
去 买 现 并 发 
团 ur1 去 重 


国 前 后 (不同 页 面 ， 不 同 场 
景 下 ) 发 出 的 多 个 url 中 是 
人 否 有 重复 的 


国 如 果 有 ， 则 自动 忽略 
挥 ， 去 挥 ， 去 除 重 复 = 
去 重 
国 提取 


国 做 了 哈 
国 内 置 弟 用 的 内 容 提取 的 库 


国 Pyspider 集 成 eyouery 
国 scrapy 集 成 选择 器 ， 
有 
持 : xpath、css、re 
国 同时 支持 可 选 的 第 三 方 的 
库 


国 scrapy 也 支持 
用 Beautifulsoup 提 取 
内 容 
国 好 处 : 不 用 额外 安 丢 和 使 用 这 些 
库 
国 对 比 : 自己 裸 写 代码 就 要 考虑 选 
用 哪些 合适 的 库 去 提取 内 容 
国 保存 


国 做 了 哈 


国 集成 各 种 保存 数据 的 接口 
和 框 嫉 


辆 PYySPider 


国 上 自 市 默认 保存 
为 sqlite 中 


国 可 以 从 界面 
中 导出 csv 
或 json 
国 其 他 数据 库 接口 


图 myYySGJ 
国 mondoadb 


国 等 等 
国 好 处 : 可 以 方便 的 选择 保存 数据 
的 方式 ， 无 需 过 多 操心 细节 
国 对 比 : 自己 裸 与 代码 ， 还 要 安 夫 
不 同 的 数据 库 的 库 ， 再 手动 与 
(Sql 等 ) 代码 去 保存 数据 
。 还 带 了 很 多 额外 的 好 用 功能 


便 PYySPider 


国 带 UI 界 面 ， 调 试 非常 方便 
图 支持 网 页 内 容 是 执行 js 后 才 生 成 的 


国 通过 集成 第 三 方 ebhantomj S 
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单 见 爬 虫 框 飞 


原文 : https:/book.crifan.org/bookSs/ 
crawl your_ data_spider technology/website/ 
spider _ framework/common _ framework.html 


e 卫 Y 七 上 O 
GO PySpider 


国 Python 爬虫 框 兆 : PySpider 
GO Scrapy 


国 主流 Python 框架 : Scrapy 


O 〇 其 他 
国 Grab 
图 Portia 
国 newspaper 
图 ruia 
国 Cola 
国 Sasila 


e。 JaVa 


〇 O Nutch 


国 Nutch 是 一 个 基于 Apache 的 
Lucene， 类 似 Google 的 完整 网 络 搜 
之 引擎 解决 方案 ， 基 于 Hadoop 的 分 
布 式 处 理 模 型 保证 了 系统 的 性 能 ， 类 
似 Eclipse 的 插件 机 制 保证 了 系统 的 
可 客户 化 ， 而 且 很 容易 集成 到 自己 的 
应 用 之 中 。 
@ 〇 Heritrix 


国 Heritrix 是 一 个 开源 ， 可 扩展 的 web 爬 
虫 项 目 。Heritrix 设 计 成 严格 按照 
robots.txt 文 件 的 排除 指示 和 META 
robots 标 签 。 
OO crawler4j 


国 crawler4j is an open Source web 
crawler for Java which provides a 
simple interface for crawling the 
Web. Using it, you can Setup a 
multi-threaded web crawler in few 
minutes 

@O WebMagic 


国 国人 黄 亿 华 先生 的 良心 大 作 。 无 须 配 
置 、 便 于 二 次 开发 的 爬虫 框架 ， 它 提 
供 简 单 灵 活 的 API， 只 需 少量 代码 即 
可 实现 一 个 爬虫 


。 GOoJLand 


C 〇 Pholcus 
GO Colly 


e。 NoqeJS 


〇 O headless-chrome-crawler 
。 C## 


GO abot 
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如 何 与 爬虫 


原文 : https:Wbook.crifan.org/bookSs/ 
crawl your_ data_spider technology/website/ 
how_write_spidemr/ 


由 于 不 同 语言 对 于 怜 虫 的 生态 不 同 ， 导 致 选择 不 同 
语言 去 实现 同样 的 怜 虫 目标 ， 难 度 也 差异 很 大 。 


。 目的 : 爬虫 


O 〇 就 像 要 建 一 个 自己 喜欢 的 房子 
。 不 同 语言 难度 


GO Python 
国 已 有 : 


国 建 房子 : 给 你 建 好 了 房子 ， 且 还 
搞 好 了 硬 装 ， 有 了 基本 的 家 具 等 
国 仆 虫 


生态 极其 丰富 和 强大 
国 里 独 的 库 
国 下 载 

国 网 络 库 


国 requests 


正则 re 
Xpath 


PyQuery 


Ap 
一 


回 
器 
国 BeautifulSoup 
轿 
转 


国 Scrapy 
国 PySpider 
国 等 


国 建 房 子 : 简单 弄 弄 软 装 ， 就 可 以 
得 到 你 喜欢 的 房子 
国 疏 虫 


国 只 需要 分 析 网 页 内 容 加 载 
逻辑 ， 摘 清楚 规则 
国 再 去 用 Python 代码 实现 这 
些 规则 和 遥 辑 ， 即 可 
O 其 他 语言 


国 已 有 
国 建 房 子 


国 个 仪 没 硬 妆 ， 往 往 也 没 房 
子 


国 甚至 连 钢筋 水 泥 和 沙 
子 等 原材料 都 没有 
国 疏 虫 


国 不 同 的 语言 ， 对 于 网 络 相 
关 库 、 解 析 相 关 库 等 等 ， 
都 有 一 定 程度 的 支持 


国 但 往往 不 够 好 ， 具 体 
情况 差异 很 大 
国 对 于 其 他 编程 语言 ， 用 来 
开发 展 虫 的 生态 和 便利 


性 ， 个 人 总 体感 萝 是 


国 <#> co> Java 


> PHP 


国 需要 你 从 头 做 起 去 建 房子 


国 自己 开车 采购 钢筋 水 
泥 阔 子 等 原材料 
国 然后 找 人 开始 建 房 子 
国 把 房子 建 好 后 


国 才能 开始 硬 考 
国 最 后 软 专 


国 做 出 你 喜欢 的 房 
子 
国 仆 虫 


国 很 多 时 候 都 没有 很 好 的 轮 
子 可 用 ， 导 致 疏 虫 方面 开 
发 效率 很 低 


国 往往 要 了 解 http 网 络 库 
的 机 制 ， 甚 至 自己 裸 
写 代 码 ， 才 能 实现 http 
层面 的 网 页 源码 的 下 
载 

国 然后 再 去 解析 源码 ， 
期 间 甚至 还 要 关注 
html 字 符 编码 的 问 
题 ， 才 能 提取 出 你 要 
的 内 容 


旧 教 程 
之 前 与 过 一 些 旧 教 程 ， 需 要 的 也 可 以 参考 : 


。 详解 抓 取 网 站 ， 模 拟 登 陆 ， 抓 取 动态 网 页 的 原 
理 和 实现 (Python ，C# 等 ) 

。 如何 用 Python ，C# 黎 语言 去 实现 抓 取 静态 网 页 
+ 抓 取 动 态 网 页 + 模拟 登陆 网 站 - 在 路 上 
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用 Python 写 爬 虫 


原文 : https:/book.crifan.org/bookSs/ 
crawl your data_spider_ technology/website/ 
how_ write_spidewuse_python.html 


爬虫 领域 中 ， 相 对 最 方便 和 好 用 的 编程 语言 ( 和 


库 、 框 架 等 ) ， 要 属 : Python 
具体 如 何 做 ， 详 见 独立 教程 : 
。 如何 用 Python 写 爬 虫 

以 及 其 他 一 些 相关 内 容 : 


【教程 】 模 拟 登陆 网 站 之 Python 版 〈 内 含 两 
种 版 本 的 完整 的 可 运行 的 代码 ) 
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用 C# 与 朴 虫 


原文 : https:Wbook.crifan.org/bookS/ 
crawl your_ data_spider_ technology/website/ 
how_ write_spidewuse_csharp/ 


C# 中 和 疏 虫 相关 的 内 置 库 有 : 
。 网 络 相 关 


全 System.Net 
合 System. 工 O 


。 内 容 提取 解析 
O 正则 


转 System.Text .RegulLarExpressions 


C# 疏 虫 举 例 


之 前 整理 过 一 些 C# 的 爬虫 方面 的 例子 。 整 理 于 此 供 
参考 。 


。 C# 模 拟 登 录 百 度 首 页 


C# 提 取 songtaste 中 h1user 的 值 crifan 


完整 代码 : 


Using System; 
Using System . 
Using System . 
SanmoowSEER 
Using System . 
Usinog System， 


Using System . 


sinog osySEeEme 
Using System . 


Usinaogoystem: 


GoecenonmssGsnmernc: 
ComponentMode1l:; 
Data'; 

DEFawind， 

ee 


Winadaows .FEorms ， 


Net， 
ER@ 克 


Text .RegularExpPpressions， 


namespace crawlLlWebsiteAndqExtractInfo 


{ 


Public Partial class frmCrawlLWebsite 


{ 


Pub1lLic frmCrawlLWebsite () 


{ 


InitializeCcComponent () ; 


EOCm 


Pivate 7ZoiaQ btnCrawlLAndExtract_ ClLick (ob 


{ 


ES geeEnieri CMR 
//http://www.songtaste.com/user/3519 


全 让 生 本 用 亲 十 间 科 直下 玫 全 于 二 三 区 术 FEOEBw1L .Te 


//generate httP Freduest 
HttPWebReduest redq = (HtPWNWepbpRedquest 


/]use GET methoaQ to get uc1lL7's html 
redqd.Method = "GET"，; 

//use reduest to get response 
HttPWebRespPonse respPp = (HttPWebRespPo 
Si 二 ANEm 下 CRaESSEt 三 证 信 人 ER， 

//use songtaste's htmlLl's charset GB2 
//otherwise will return messy code 
Encodqing htmlLEncoding = Encodqing.Get 
StreamReader Sr = mew StreamRehadqer (L 
//readq out the returnedq html 

string respPHtml = Sr.ReadToEnd () ; 
ztbEXtractedqHtml .Text = esPHthihn]， 


986EaEAEUESRNAesteleheldaESETOIEO LDO Ge 二 ITeaa 


{ 


SEEep2exEaCEUeESEEEQRnEO 

//<hl class="hluser">crifan</hl> 
Strindgd hluserP = G"<hlNs+classF""hlu 
Match founadHLuser = (new RedexI(nhlLluse 


If (founadqHluser.Success) 


//extractedQ the expPectead hluser' 


七 XpEXtLTractedqInfo.Text = foundqH1Lu 


ese 


七 XDEXtLTractedqInfo.Text = "NOot fou 


TeaEeeVewd 了 KMWRUIEGTESHUEETERENKE GIRLCKeqQ 人 
{ 
SS 性 生 可 发 亿 臣下 本 开本 下 让 本 二 让 SEE 帮 AWW -C 工 


System.Diagnostics .Process.Start (tut 


ee: 


运行 效果 截图 : 


* 抓 职 网 页 并 查 取 所 雪 信 息 演示 


抓 取 到 的 网 页 源码 


<IDOCTYPE HTML PUBLIC "-/AW3CADTD XHTML 1.9 辐 
TransitionalEN 本 
"http-7Awww 人 3， 人 1/DTDAhtml1- 

transitional .dtd” 


Pearatnl "http-/www w3 orgy1999Adhtmh。 lang='zh<N > 


ww 


提取 所 需 的 信息 
了 
提取 出 来 的 内 容 : 


完整 代码 (VS2010 的 项 目 ) 下 载 : 
crawlWebsiteAndExtractlnfo_csharp_2012-11-07.7z 
具体 细节 详 见 : 


。 【教程 】 抓 取 网 并 提取 网 页 中 所 需要 的 信息 之 
C# 版 


C# 扑 虫 相 天 通用 函数 代码 段 
在 折腾 C# 人 惟 虫 期 间 ， 把 网 络 功能 等 常用 函数 和 代码 


段 ， 整 理 成 独立 施 效 : 

crifanLib.cs 

且 额 外 加 了 文档 说 明 : 

crifanLib.cs 之 Http - 详解 crifan 的 C# 库 : crifanLib.cs 
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C# 模 拟 有 登录 百度 下 页 


原文 : https:Wbook.crifan.org/bookSs/ 

crawl your_ data_spider technology/website/ 
how_ write_spidqewuse_csharp/ 

cs_emulate_ login_baidu.html 


之 前 用 过 c# 实 现 模 拟 登陆 百度 首页 ， 且 有 2 个 版 本 
及 对 应 的 更 新 版 本 。 


具体 过 程 详 见 : 


。 【教程 】 模 拟 登 陆 网 站 之 C# 版 〈 内 含 两 种 版 
本 的 完整 的 可 运行 的 代码 ) 
下 面 整理 如 下 : 


C# 模 拟 登陆 百度 首页 之 纯 内 置 库 版 


Using System; 
Using System.Collections .Generic; 
Using System.ComponentMode1l:; 


sanmngeyvsSEem DaEa 


Usingl 
REGKej 


DIS 


SG 
TIEREAKG 
SG 


SG 


System . 
System 。 
System 。 


System 。 
System 。 
System 。 
System - 


DEFawind， 
工 eX 七 ， 


Winadaows .FEorms ， 


Net， 
OO; 
Text .RegularExpressions， 


Wepb ; 


namespace emulLateLoginBaidu 


{ 


所 间 忆 二 站 二 ECOSdRBeadu : 


{ 


BoeK 


jeielG) 站 


Pub1l 
{ 


和 


{ 


1IeCollection curCookies = DulL1l': 


gotCookieBaiduid，extractIokenValue 


IC frmEmulLateLodginBaidu () 


InitializeComponent () ; 


ate void frmEmulateLoginBaidu_ Load(o 


ALE 
CULTCookies = new CookieCollection () ; 
gotCookieBaiduiad = false， 


exXtLractITokenVvValLueoOK = false，; 


LoginBaiduok = false; 


/大 大 火 大 火 大 大 痰 大 大 痰 痰 大 火 痰 大 类 大 大 火炎 大 大 大 大 大 痰 大 大 大 大 大 大 火炎 大 大 大 大 


Gos 基 二 和 本 余生 SO 汪 CRS 


大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 痰 大 大 大 大 大 


Ai 
//note: the return result for first Para 
BC 二 OOSaeEeRareasDaecEnenary<stri 


{ 


SengaoucokeeParmas 一 ”>: 
Dool 1sEFirst = 七 TUe; 
SEOIS0Ve YE 和 全 


foreach (String Para in Paras.Keys) 
{ 
If (Paras .TryYyGetValue (Parar out 
{ 
SS Si 
{ 
SS 下 鸭 有 SS 攻 于 二 和 仿 避 S 


GuotedqParas += Para 二 "= 


ese 


quotedParas += "&"|+ Par 


zeturn cuotedqParas， 


/大 大 痰 大 火 痰 大 痰 痰 大 火炎 大 类 大 大 大 痰 大 火 痰 大火 痰 大 大 痰 大 大 痰 大 大火 火炎 大 大 大 大 


Demo emulate login baidqu relatedq functio 


光大 类 大 火灾 类 太 炎 大 类 大 类 类 关 大 光大 关 大火 类 类 :大火 大 类 大 类 大 交大 大 大 大 大 大 大 


Pivate void btnGetBaiduiad_ click(obJject 


{ 


//LnhttpP:/V/Lwww.baidu.com/ 
忆 世 节 寺 仙人 二 所 避 开 局 这 二 站 朵 天 相生 二 下 丰 广 已 及 MainmnUT 


//generate httP Freduestt 


HttPWebpReduest redq = (HtPWepbpRedquest 


//aaddq follow code to handqle cobkies 
redqd.CookieContainer = new CookieCont 


redqd.CookieContainer.Adqdq (curCookies) ， 


redqd.Method = "GET"， 

//use reduest to det response 
HLttPWNWebRespPonse resp = (HttPWNWebRespo 
下 区 的 到 G 臣 局 相 a 二 下 e 广 攻 攻 三 本 2 


foreach (Cookie ck in resp.Cookies) 

{ 
idelEeieISEDNReDKe 肖 KE 
If (ck.Name == "BAIDUID") 
{ 


gotCookieBaiduid = 七 TUe，; 


oocCeoknreBanaunaoy 
{ 
帮 EEoEeEeocl 辣 二 


CUrCookies = tesp.Cookies'， 


ese 


MessageBox .Show (" 错 误 : 没有 找到 cool 


Private void btnGetToken Click(object se 
{ 
okeCocokneBaneduneh 
{ 
SO ea 下 UTI 三 汪 号 世间 SR /Dass: 
HLttPWNWebReduest redq = (HLtPNWebRed 


//aadq Przevious1ly got cookies 


ese 


redq.CookieContainec = new Cookie 


redqd.CookieContainer .Addq (CUrCOoKL 


redqd.Methoad = "GET"，; 
HttPWebRespPonse respP = (HttPWepR 
StreamReadqer Sr = new StreamRead 


Stzing respPHtml = S 上 .ReadIToPEnad () 


//bdqPass.api.params.1Lodin Loken= 
String tokenValP = Q"bqPassA\.api 
Match founadIokenVal = (new| RedexX 
EmmagOkenwWamsSwueeess 

{ 


LERESeEeaEENESEEOISENE7alUue 


七 XpDEXtLLTractedqTITokenVvValL .Text = 


eXtLractTITokenVvValLueOK = 七 YUe， 


ese 


七 XpDEXtLTractedqTITokenValL .Text = 


MessageBox .Show (" 错 误 : 之 前 没有 正确 


Private void btnEmulLateLodginBaidu Cl1Lick'( 
{ 
If (gotCookieBaiduid && extractIToken' 


{ 
strind9 staticpage = "httpPp:/LAwww. 


oOISIEGEC ERES 
DReEsonansEessleaioR StansiioZ| 记 cstD 
帮 和 ssEDmCEEAGoGDEUnENIOGaLIiImen， 
人 DSSEDRECERRO ES DFTf-87") 
/posktDmecteAddiecoaueskceang' ，"") 
个 Eract 
世 DSstDTet Add SENhGe “人 hlse") 
人 
DGSE 上 ea 
/espmeeeAdaq (saEeLIOE | 07) ， 
PostDict.Addq("staticpadge"， StatiL 
BesieaDaeeeAacRE conanSN 记 SY 二 ") 7 
SSEDITEERAOOIEEBIIETO 
PostDict.Add("cal1lback"， "Parent 
PostDict.Adqdq("username"，t 上 xbBaid 
PostDict.Adqdq("Passwordq"，t 上 xbBaid 
太公 OsEDICERAQOGIGenEeoaesl'  ， "7") 


EDD"”) 


Stzing baidquMainLoginUL1 =| "httPp 
HttPWebReduest redq = (HLtPNWebRed 


//add cookie 

redq.CookieContainer = new Cookie 
redqd.CookieContainer .Add (CUrCOoOKL 
//set to POST 

redqd.Method = "POST"; 
Fed.ContentType = "app1lLication/X 
//Prepare Post qdqata 

StLring PostDataStLr = GquoteParas (| 
byte[] PostBytes = Encoding.UTES8 
redq.ContentLendgth = PostBytes .Le 
//sendq Post data 
SeamnBDostDaeaSeam 王 2e.GetR 
PostDataStream.Write (PostBytesv 
PostDataStream.Close() ，; 

]]5ot resPonse 

HLtPWebpRespPonse respPp = (HttPWepR 
OO ED DEGREE 

StreamReader Sr = mnew StrehmRead 


stzing LoginBaidquResPHm1l 二 SLT.R 


//check whether got all exbected 
Deaenam< snogseocd epokiecC 
String9[] cookiesNameList = {"BDU 
foreach (String cookieTocheck in 
{ 

CoOookieCcheckDict.Add(cookieTo 


foreach (Cookie SingleCookie in 


{ 


JECCOOKEEECReeGRD 下 要 GOhtadinsl 


{ 


COokieCcCheckDict[sinolecCo 


bool allCcookiesEounad = true， 
foreach (bool founadqCurCookie in 


{ 


alLlLCookiesFEounad = alLlCobokies: 


LoginBaiduok = allCookiesEounad'; 
ERAEBaSGGOR) 
{ 

七 xbpEmulateLoginResult .Text = 


ese 


七 xbpEmulateLoginResult .Text = 
七 xbpEmulateLoginResult .Text 十 : 
七 xpEmulateLoginResult .Text 十 : 
七 xbpEmulateLoginResult .Text 十 : 
七 XpPEmuUlateLodginResult .Text 二 : 
七 xbpEmulateLoginResult .Text 十 : 


ese 


MessageBox .Show (" 错 误 : 没有 正确 获得 


Private Void LIK1LEmulLateLodginTutoriIalLULT1L 
| 
string emulateLoginTutorialLULr1IL = "ht 


System.Diagnostics .Process .Start (emu 


Private Volid btnClearAlL1_ ClLick(object se 
{ 
CULTCookies = new CookieCollection () ; 
gotCookieBaiduiad = false， 
extractIokenValueoOK = false'; 


LoginBaiduok = false; 


在 芝 世 司 G 臣 甩 训 于 Te 
七 XbEXtLTactedTokenVal .Text = ""/ 


七 xbpBaiaduUsername .Text = 
七 XpPBaidquPassword.Text = 


七 xbpEmulateLoginResult .Text = "1 7; 


模拟 登录 成 功 的 效果 截图 : 


il 模拟 登陆 百度 首页 by Crifan [十 回 . 属 到 5 和 
步骤 1: 获得 cookie BADUID 
百度 首页 地 址 : http:/Awww baidu comy 
TS 
获取 到 的 Cookie BAIDUID 


[BAIDUID]-E2FFE8745828527BF25F782235734EDD:FG=1 


步骤 2: 获取 token 值 
获取 token 值 


提取 出 来 的 oken 值 : ”be080e519663748f6595349c651ed70 


步 邓 3: 模拟 登陆 百度 首页 
ae | 二 
百度 密码 : 

一 全 人 半 下 民 放 页 | 二 一 

而 本 可 匡 革 页 


模拟 登录 百度 首页 的 结果 : 


全 部 清空 以 便 重 新 测试 


完整 的 C# 代 码 (VS2010 项 目 ) 下 载 : 


。 embulateLoginBaidu_csharp_2012-11-07.7z 


以 及 后 续 针 对 .NETr 4.0 优 化 版 本 : 
。 模拟 百度 登陆 独立 完整 代码 版 本 .NET 4.0 


GO emulateLoginBaidu_csharp_independentCodeV 


C# 模 拟 登 陆 百 度 首 页 之 crifanLib.cs 生 
完整 代码 : 


Using System; 
UsTngaSsystemaCoectnieDnSCESnETETC7 
Using System.ComponentMode1l:; 
Using System.Data'; 

using System.Drawind'; 

Using System.Text， 


UsangaSsysEeemswangosROFmS 


Using System.Net; 
UsanaoEoyvsenne， 
using System.Text .RegdulLarExPressions， 


Using System.Web; 


namespace emulateLodinBaidu 


{ 


PuUoluccarcenalchassernanmualatenooinBaiadau : 


{ 


BoaokanieCcieccemenEcueCoeINTES 有 = 三星 mUDi 晤 时 


bool gotCookieBaidquidq，extractTokenVvalLue 


Pub1lLic frmEmulateLodginBaidu () 
{ 


InitializeComponent () ; 


Pivate 7oid frmEmulateLoginBaidu_ Load (ol 


{ 
this.AcceptButton = 七 nis.pbptnEmulateED 


人 胡 本 人 GE 本 CN 本 CR 


CUTCookies = new CookieCollection () ; 


久 疝 而 下 起 芋 有 OF Gemoeegnnm 
gotCookieBaiduiad = false， 
exXtLractITokenValLueoOK = false，; 


LoginBaiduok = false'; 


/大 火炎 大火 痰 大 痰 痰 大 痰 痰 大火 痰 大 大大 大 大大 大 大大 大 大 痰 大 大 大 大 大 大 火炎 大 大 大 大 


UNCleneonmsnCENRESaE 有 CE 
Online browser: http://code.googdle.com/P 
Download : http://code.googlel com/P 


光大 类 次 六 并 类 太 类 大 类 二 大 大 类 类 大 术 大 天 灰 类 大 火灾 大 汪 类 天 类 灾 类 二 业 火 大 大 大 大 


NauectEeenheaanpuCac 让 Rss 
//note: the return result for first Para 


ODSTOUGEEES EeeRy<strL 


{ 


全 七 节 册 下 可 直人 加 加 下 全 总 请 昌 下 间 全 二 三 
OONSRTeSEE 三 瑟 iDe 
SEA GO 人 7 避 吕 和 


foreach (String Para in Paras .Keys) 
{ 
If (Paras .TryGetValue (Parar out 
{ 
SS 
{ 
1SEirst = false，; 


GuotedParas += Para 二 "= 


ese 


quotedParas += "&"|+ Pa 


Dreak; 


zeturn cuotedqParas， 


/大 炎炎 大火 痰 大 火 痰 大 痰 痰 大 火 痰 大 大大 大 大大 大 大 大 大 大 痰 大 大 大 大 大 大 火炎 大 大 大 大 


SOEUIGEEx 


/ 大火 痰 大 火 痰 大 大 大 大 痰 痰 大 火 痰 大 大 痰 大 火 痰 大火 痰 大 火 痰 大 大 痰 大 大 大 火炎 大大 大 大 


//aadgd a single coocokie to cookies，if al 
Public void addqCookieToCcookies (Cookie 上 上 ol 


{ 


Dool foundad = false'; 


开 人 Eeeeknes 划 Con 巧 二 > 主 0y) 
{ 
foreach (Cookie originalLlCoobkie 于 
{ 
IfE (originalCookie .Name == 七 
{ 
// !!! for diffeceht qom 
帮 必 sosnheulaEnet st 七 ne 
RISE 这 所 中 直 .C 七 工 世 
二 IO 二 ee .Doma 


((originalCookie .Dom， 


hearecanans| fcorce 


//[then use .renove 七 


// so no goodq way 七 o 


OriginalCookie.Value 


oridinalCookiel Domai 


OriginalLCookie 下 XPiLE 


OriginalCookie VersiL 


orid9dinalCookie.Path 


/V/[/follLlowing fieldqs si 
//oridinalLlCookie .Ht 


//oridinalCookie.Sec: 


founa = 七 Yue， 


Dreak; 


Ormey) 
{ 
ESDOmaSNTI RE 7 
{ 
7 
Cookies.Add (toAdqd) ; 


}//addqCcookieTocookies 


//aadd singel cookie to cookies，aqefault 
Public void adqdqCookieToCcookies (Cookie 上 上 ol 
{ 


adqdqCookieToCcookies (LoAddq， ref Cookie 


//check whether the cookies contains the 
人 DO 

peensel is 证 Gaole 和 拓 上 iiimng 

//cookies is Cookie/strind9d/Cookiecollect 
pub 由 ceomeseCeoneanmcookanerkebaecgl ckToc 


{ 


bool isCcContain = false， 
if ((CKTIToCcheck != mul1lL) && (copbkies 
{ 

Stzing CKName = ""); 


Type 七 YPe = CKIToCcheck .GetType () ; 


SEE7DESET 是 三 厂 忆 ET ESRoStTILi 


//if (ckType.EFulLIName == "System 
If (type.Name .ToLoweLr () ==| "StLIL 
{ 

CKName = (String) ckToCcCheck， 


} 


else if (type.Name == "Cookie") 


CKName = ((Cookie) ckTocheck) 


If (CCKName != "1") 


{ 
本 ype = Cookies .GetType () ; 


// is single Cookie 


If (type.Name == "Cookie") 
{ 
IE (CKName == ((Cookie) ec 
{ 
IsContain = 七 TUe，; 


} 
/ECoeaokeeceoeeEmen 
else if (type.Name == "CoOoKL 
{ 
foreach (Coocokie cKl in (C 
{ 
If (CKName == CK.Namt 
{ 
1ISContalin 二 七 YUe 


Dreak; 


// is single cookie name stLr 


else if (type.Name.IoLower () 


{ 
IE (CKName == (String) co 


{ 


1ISsContain = 七 YUe， 


} 


// is cookie name strind [] 


else if (type.Name.IoLower () 


{ 


foreach (String name In 


{ 


If (ckKkName == Phame) 


{ 


1ISsContain 一 七 YUe 


Dreak; 


EnETISContanin 


ALGoneaarieoaIE 


// update cookiesToUpdate to LocalCookie 
// if omitUpdateCcookies qdqesignatedq then 


Public void updateLocalLCookies (CookieCol 
{ 
是 本 人间 本 大 于 人 站 避让 半 本 全 人 站 站 上 一) 
{ 
If (localCookies == mul1l) 
{ 


LocalCookies = CookiesToUpda. 


ese 


foreach (Cookie newCcCookie in 
{ 
1IfE (IsContainCookie (newcC 
{ 


// need omit Process 


adqadqCookieToCcCookies (ni 


} 
Paatemoealccoclass 


//update cookiesToUpdate to LIocalLCbokies 
Public void updateLocalLCookies (CookieCol 


{ 


UpdateLocalCookies (CookiesToUPQaatey， 


/大 大 痰 大 火 痰 大 痰 痰 大 火炎 大 火 痰 大 大 大 大 大 痰 大 大 痰 大 大 痰 大 大 大 大 大 大 火炎 大 大 大 大 


TREE 


/大 大 火 大 火 痰 炎炎 大 火炎 大 大 痰 痰 大 火 痰 大 火 痰 大火 大 大 大大 大 大 痰 大 大 大 火炎 大 大 大 大 


JS 人 Se SS 

PublLic HtPWebResponse getULr1LIResponse (st 
Dictiona 
Dictiona 
IntL 七 Ime 


Sing P 


//Cookiecollection ParseaqCookies; 


HttPWebpRespPonse respPp = mnul1; 


HttPWebReduest redq = (HtPWepbpRedquest 
redq.AlL1LowAutoRedirect = 革 rue， 
Seesee 人 

//const string g9AcceptLanguage| = "en 
//red.Headqers["Accept-Languadey] = d 


zedq.KeepPAlLlive = 七 Tue; 


全 8 


//const string g9UsercAderntt 


AD 


//const String gUserAgen 


Const String g9UserAdent 


ICHREOme 


//const string 9UserAgentt 


]IMezalia ReEO 关 


//const string gUserAgent 


EeesuUsenAgen 七 


redqd.Headqers["Accept-Encodqindg'" ] 


redq.AutomaticDecomptression 


1S= eepey 用 轴 谨 - 


"MOozILI1a 


"MOozII1a 


NMSz 二 1 工 a/5 


"MozILI1La 


"MOozI1I1a 


ggUSssrAden， 


= "gz 


DeCompL 


EYECILLESSE 六 
{ 
redq.Timeout = 七 imeout， 
】 
TELCUOECoeEEES IEE 琶 mmUI 


i 
redqd.CookieContaineL 
redqd.CookieContaineL 


redqd.CookieContaineL 


new Cookie 
.PerDomaincCap， 


.Adadd (CUFCOOKLI 


If (headqerDict != null) 
{ 
foreach (String headqer in headqeLr1 
{ 
String headqerValue = "1 ; 
IfE (headqerDict.TFYGetValLue (hh 
{ 
// following are allow 了 
If (header .TIoLower|() == 
{ 
redqd.Referer = header 
} 
else if (headqezr .ToLoweL ( 
{ 
bool 1ISsSA1LlLIow =| false 
If (bool .TryParse (he 
{ 
red.AlLLIowAutoRed 


} 
else if (headqer .ToLower ( 
{ 
redq.Accept = headerV 
} 
else If (headqer.TIToLower ( 
{ 
bool 1ISKeePAlive = EE 
If (bool .TryParse (he 


redq.KeePAlLive = 


} 


else 1If (headqecr .IToLower ( 


{ 
redqd.Headers["Accept- 
} 


else If (headqer .IToLower ( 


red.USserAgent 二 head 


redqd.Headers [heaaqer] 


Dreak; 


SSEDTCEEEIEEnDOIN 司 改写 SSDS+aSst 
{ 
redqd.Method = "POST"; 
Fed.ContentType = "app1lLication/X 


人 
{ 


PostDataStr = GuoteParas (Pos. 


//byte[] PostBytes = Encoding.Ge 
byte[] PostBytes = Encodqing.UTES8 
redq.ContentLendgth = PostBytes .Le 


Stream postDatactream = ze.GetR 


PostDataStream.Write (PostBytesv 


Dosepakeastaseameehoserg 志 


ese 


redq.Methoad = "GET"， 


//may 七 imeout，has fixeq in: 


/]Lhttps://Lwww.crifan.com/fEixedq Propbl 
respP = (HLLtPWebpRespPonse)zed.GetRespol 


UpdateLocalLlCookies (esp.Cookies，，， ef 


etunneese7 


PublLic HtPWebResponse getULr1LIRespPonse (st 
Dictionary<sS. 


Unary<sS: 


return getUr1LIResponse (ur ，headqerDic 


PublLic HtPWebResponse getUr1LIResponse (st 
{ 


zeturn getUrLIResponse (urz 工 ，nulL，nul 


acehaSsestexGBRSO0S0UU AUFRRES In71 
和 本 ROW Url， 
Dictiona 
Sierlno 
Dictiona 
IntL 七 Ime 


Stzing P 


Se 本 SS 三 本 2 


//HLtPWebResponse resp = getULr1LRespo 
HLtPWNWepbpRespPonse respPp = getULTLIResponas， 


//LIong FrealRespPLen = fresp.ContentLen， 


StLeamReaaqer SL)， 


If ((charset != nulLl1l) && (charset != 


{ 
Encoding htmlEncoding = Eneodqing 


SLC = mnew StreamReader (espP.GetRe 


SLC = mnew StreamReader (espP.GetRe 


} 
星 E SET 上 归 三 本 Se 汪 RES 外 oE 人 人 的 天 


zeturn resPHtmJ]， 


PUBlac strangoetuUriRescRmlesErcanyg url， 


{ 
zeturn getUr]lIResPHLmlL (uc ，heaQerDic 


DupBdaec sanoogetUcFRescRmtsteanyg url， 


{ 
zeturn getUr]lIRespPHLmlL (uc ，heaQerDic 


DRTacesanogerTRESEREDasang Url， 


{ 
zeturn getUr]lIResPHLmlL (uc ，heaQerDic 


Public string getUr1LIResPHtml (stzin Url 
{ 
下 忆 攻 有 本 Ge 志 机 于 二 RSSE 有 mw EU Cha 


尼 本 CSENOOSEULRSSEDREmUDESEELSO Ur]， 
{ 
return getUrCLIResPHml (urz， charsety， 


public string getUrLRespHtm1l (String urI) 
{ 
Ginsn 本 Ge 攻 WEReSNR 有 te 人 DT 人) 天 


/大 炎炎 大火 痰 大 痰 痰 大 火 大 大火 痰 大 大 大 大 大大 大 大大 大 大 痰 大 大 大 大 大 大 火炎 大 大 大 大 


Demo emulate login baidqu relatedq functio 


大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 


Private void btnGetBaiduiad Click(obJject 
{ 
//]LnhttpP:/V/Lwww.baidqu.com/ 
String baidquMainUr1L = 七 xbBaiduMainULr 
HttPWNWebpRespPonse respP = getULTLIResponas， 
ideleeh 语 BE 让 NeilageINRS CE 


foreach (Cookie ck in resp.Cookies) 


七 xbGotBaiduid.Text += "[" + ck.N 
1IfE (CcK.Name == "BAIDUID7") 
{ 


gotCookieBaiduid = 七 TUe， 


荆 人 (dococokneBaeauaey 
{ 


//store cookies 


CUrCookies = Lesp.Cookies'， 


ese 


MessageBox .Show (" 错 误 : 没有 找到 cool 


Pivate void btnGetToken Click(object se 
{ 
OOECookaneEBancunnay) 
{ 
So SeaEUIIE 三 三 几 EE 记 sl/ /Pass: 
stzing zespPHtml = getULC1LIResPHtmJ 


//bdqPass.api.params.1odin token= 


String 廿 okenValP = QQ"bqPassA\.api 


Match founadIokenVal = (new| RedexX 
JECEOUnSFOkenVaSuWccess) 


{ 


EeeEeaEENEEEECOISEnE7alUue 
七 XpDEXtLtLTractedqTITokenVvValL .Text = 


eXtLractTITokenVvValLueOK = 七 YUe， 


ese 


七 XpDEXtLLTactedqTITokenValL .Text = 


ese 


MessageBox .Show (" 错 误 : 之 前 没有 正确 


Private void btnEmulLateLodginBaidqu ClLick( 
{ 
If (gotCookieBaiduid && extractIToken' 
{ 
String staticpage = "httP:/]Lwww. 


ROSE CE OO 
DCETOnaEW<SEens eg ESsiig2| PostD 


//postDict.Add("PPpui_ lodgintime"y， 


一 5"”) 
GOSsEEBceeEGdcodesieeamnoi' "7) 
下 SEE 世 下 CO 让 昌 必 人 而 ”上 驻 避 下 证 act 
下 StDTct Adadd SPEhene” “和 hlse") 
和 
ROSA 
ESDmeEERAQdsaEec 07) ，: 
和 stat1lL 
BesiapaneteeAelcRe ea DS 芝 7") 7 
DoastDict Adad(ntDl man) ， 
PostDict.Add("cal1lback"， "Parent 
PostDict.Adqdq("username"，t 上 xbBaid 
SETReReeeasswSe DBaid 
全 osDamcesAadwemsngyeoaes 7) 


和 mn" ) 


Sa 本 baoduMasnTeganu7al 本 三 | "hh 七 七 己 
stzing LoginBaidquResPHtm1l 二 getU 


//check whether got all exbected 
忆 汪 DOK1LeC| 
String9[] cookiesNameList = {"BDU 
foreach (String cookieTocheck in 
{ 

CookieCcheckDict.Add(cookieTo 


foreach (Cookie SingleCookie in 


ese 


CGO GE 起 让 会 各 DECEERGCOn tainSs: 


{ 


COokieCheckDict[singlecCo 


pool allCcookiesEounad = tcue， 
foreach (bool founadqCurCookie in 


{ 


alLlLCookiesEouna = alLlCobokies 


LoginBaiduok = allCookiesEounad; 
后 全 区 oo 肥 届 的 区 二 旋 Ke ELGje) 
{ 

七 xpPEmulateLodginResult .Text = 


ese 


七 xbpEmulateLoginResult .Text = 


七 xbpEmulateLoginResult .Text 十 : 
七 xpEmulateLoginResult .Text 十 : 


MessageBox .Show(" 错 误 : 没有 正确 获得 


Private Volid LIK1LEmulateLodginTutorialLULT1 
{ 
String emulateLoginTutorialLULrIL = "ht 


System.Diagnostics .Process .Start (emu 


PEivate void btnClearAl1 Click(object se 
{ 
CULTCookies = new CookieCollection () ; 
gotCookieBaiduiad = false， 
extractIokenValueoOK = false，; 


LIoginBaiduoOk = false'; 


EGGtRBaTauaas RE XE 三 基 2 
七 XDEXtLTactedqTokenValL .Text = "") 
七 XDBaidquUsername .Text = "")， 


mW 。 
太 


七 XpPBaiadquPassword.Text = 


七 xbpEmulateLoginResult .Text = "1 7; 


完整 的 C# 代 码 (VS2010 项 目 ) 下 载 : 
。 emulateLoginBaidu_csharp_crifanLibVersion_2012-1 
以 及 后 续 针 对 .NET 4.0 优 化 版 本 : 


。 模拟 百度 登陆 〈 利用 我 自己 的 ) crifanLib 版 本 
.NET 4.0 


GO emulateLoginBaidu_csharp_crifanLibVersion_2( 


crifan.org， 使 用 署名 4.0 国 际 (CC BY 4.0) 协 议 发 布 
all right reserved，powered by Gitbook 最 后 更 新 : 
2020-07-30 20:35:18 


用 Go 与 爬虫 


原文 : https:Wbook.crifan.org/bookSs/ 


crawl your_ data_spider_ technology/website/ 
how_write_spidewWuse go/ 


Go 中 和 有 爬 虫 相 天 的 一 些 内 置 库 有 : 


。 网 络 相 关 


CO net/http 


C 〇 net/httpb/cookieJjar 
CO nety/Vur1l 


。 内 容 提 取 
O 正则 


国 -eagexp 


。 数据 处 理 


合 DYytes 


下 面 主 要 通过 一 个 例子 来 介绍 ， 如 何 用 Go 语言 去 实 
现 爬 虫 。 


crifan.org， 使 用 署名 4.0 国 际 (CC BY 4.0) 协 议 发 布 
all right reserved，powered by Gitbook 最 后 更 新 : 
2020-07-30 20:312:17 


Go 模拟 登录 百度 下 页 


原文 : https:Wbook.crifan.org/bookSs/ 

crawl your data_spider technology/website/ 
how_ write_spidewWuse go/ 

go_emulate_ login_baidu.html 


很 久之 前 用 co 实现 了 模拟 登录 百度 


完整 代码 为 : 
ss 
| 


* EmulateLoginBaidu .go 


UTCESEGN 让 
* 【记录 】 用 go 语言 实现 模拟 登陆 百度 


x https://www.crifan.com/emulate_ login baiqu_ us 


* [Version] 


所 二 2 


LIGKioNe ENene | 


x https://www.crifan.com/about/me/ 


5 


Packadge main 


ET 
网 
Away 
和 6 
mosn 
"zuUnt 上 imen 
OILEOE 
SGIS 池 
"七 Imen 
ee 
OZ 汉 且 
etitEtEioY 
"net/httP/cookieJjarn 
Te 
SSG 
NTTGE 相 人 训 且 
"YegexP7” 
ERe 
"pytesy" 


AoEDo4geooeocgleecsae ecmnon 
mmol4oaeoaseogcocoeeconmORP 和 cg4go 
import "code.google.com/P/1Log4gon 


/大 痰 大 大 痰 痰 大 痰 大 大 痰 痰 大 痰 大 大 大 痰 大 火 痰 大 大 火 大 火 痰 大 大 大 大 大大 大 大 痰 大 大 大 大 大火 大 大 大 大 大 


Global Variables 
类 次 类 类 炎炎 类 本 火灾 类 类 炎炎 类 大 火炎 类 类 炎炎 类 本 火灾 类 枯 炎 大 类 本 火炎 火炎 火 大 类 六 火 大 六 火 火 火 火 火 
VagueCeooknes 关 天 区 ResCceekne 
WasdGUECOckaedaoaseeoknieaartewan 


Var g9Logger Lodg4go .Dogger，; 


/大 大 大 大 火 痰 大 痰 痰 大 火 痰 大 大 大 大 火 痰 大 大 大 大 大 痰 大 大 大 大 大 大 大 大大 大 大 大 大 大大 大 大 火 大 大 大 大 大 


| 罗 WieTedeEeoats， 
SA AAA 大 火炎 炎炎 
On DeEOFeESTIUEOENEES 
人 UTC 天 司 ( 的 刘 ( 

GCuUrCookies = Dil 

ASSTEEeTTEGOUs 

9CurCookieJar， = Cookie]jar.New(nil) 


g9Logge = Dil 


initLodggerL () 
人 有 全 0E 国 e 太 量 


//de=-init Eor al1 
下 证 人 本 包 STONE 三 ( 作 到 
GCCUFECEOGKILeS :1 志 
If(nil == 9Lodgdger) { 
9Lodgdgqer .Close () ; 
人 SSEQoukte Sync nmanaalasEEF1lushnh， 


9LoggeL = Dil 


esSGmenTEE 汪 es 

人 信和 条 革 全 证 全 琶 人 
ggge 有 DECE 人 全 辣 ON GT 全 CS 
GCuUrCookies = Dil 


etUuDn 


/V/init for Ioggez 
| 
Var filenameoOnly String = GetCurFilLename () 


Var LogF1ilename String = filenameoOnly|+ " .1 


//gLogdger = log4go.NewLodgder () 


//gdLoddeL make (LIog4do.Lodder) 
AGEeeonmsee 
//gLogger.AdqdEFiLter("staout"n，1Log4go .INEO， 工 
9Logger = Log4go.NewDefaultLogger (Log4Ggo .INF 


人 EC 二 Co 的 Le 
If _， err := OoOSsS.Stat(LIogF1ilLlename)); er == mi 
ETTIE 汪 下 汪 本 站 ECOUWO 旺 CO 本 从 本 2 mo 


os .Remove (LogFEFilLlename) 


//gLogger.AdqdFiLter("Logfile"，， Log4go .FINEST 
//gLogger.AdqdFilLIter("Logfile"，， Log4go .FINEST 
gLoggezr .AdgdFilLter("1og"，1Llog4ge .FINEST1 Log4 


9Logdgqer.Depbudgd("Current 七 ime is : ggS" 十 ime.N 


etuDn 


// GetCurFEilename 

NG CD 大 而 让 由 和 让] E 而 mLENOUS 丰 人 去 

func GetCurEilename () String { 
EUHRLeERNLEIETSIESTRA 二 namesCaNEr(0) 
//fmt.Println(fulleFRilename) 
Var filenameWithSuftfix stzrindg 
filenameWithSufttix = Path.Base (fulLlleFilLlename 
TI 瑟 基 1T 二 工 DY TELename 克 二 有 SS 让 下 在 主 文 三 站 二 1enamt 
Ra 下 汪 人 ES 人 天王 SE 汪 sg 
fileSuffix = Path.Ext (filenameWithSuffix) 
居民 ET 个 企 亲 二 用 全 二 ESD ) 


Var filenameoOnly Stzind 
filenameoOnly = Stzings .TrimSufttfix(EfilenameWI 


//fmt.Println("filenameonly="，filenameonlLy) 


zeturn 夺 LenameoOn1lLy 


IJVoESOEIESSDPonSe REmTL 


ECG 本 可 SU 让 ReSEREm REGCSESS US 二 DoS 有 me mapl 
99Lodgdgqer.Debudgd("in getUrLResPHLm1L， StULYI= 委 S" 
可 De DeBDOTI EBDOSEDTEEE= 和 SS PstDdcto 


WaSS 人 有 EmmasSs 世 ng 是 三重 


这 .三 本 让 攻 三 人 emie 
旋 估 as 让 GE 过 
AGREEIEREOTE 攻 < 天 和 村 村 


Jar geureeckiLeJa， 


委 司 荆 有 世 世人 民 全 本 肌 下 世人 二 式 ecues 七 
//var newRedErT erLror 
If nil == PostDict { 
Logdeze 2 Debug (SCBETIT”) 
/]RhttPRed，， newRedErr = httpPp.NewReduest (" 
httPRed， ”= http.NewReduest ("GET"/ StLU 
/人 
//nhttPRed.Headqer.Adqdq ("IfE-None-Match"， 人 
Jesse 
//【 记 录 】go 语 言 中 实现 http 的 POST 且 传 递 对 应 的 p< 
//Lnhttps://www.crifan.com/go 1Landuage_htt1 
GeSSersDeEBuo ds ReST 
PostValues := UrlL.Valuesi{l} 
for PostKey， PostValue := fange PostDict 
PostValues .Set (PostKey，PostValLue) 


9Lodgdger .Depbudg("PostValLlues= 避 s" PostValue 
PostDataStr := PostValues.Encode () 
9Lodgdger .Depbudg("PostDataStLr=gs5s"，PostData 
PostDataBytes := [jpbyte (PostDatasStLr) 
9Lodgdgqer .Depbudgd("PostDataBytes=s"， PostDa 
PostBytesReadqer := bytes.NewReadqerI(PostD 


//]RhttPRed，， newRedErr = httpPp.NewReduest (" 
httPRedGd，， = httP.NewRedgquest ("POST | ， StI1 


//]nhttPRed.Heaqer.Set ("Content-Type''，"apl 
httPRed.Heaadqer.Aadqad ("Content-Type"，| "apP1l 


httPRespPp，err := httpPClient .Do (httPRed) 
人 
//nhttPResp，err := http.Get (stzUTLIL) 


//gLogger.Info("httpP.Get aqone") 
二 SS 用 由 = 天)0i 峡 国 玫 | 

站 训 可 可 天 由 SPDOnsS: 
} 
9Lodgqer .Depbudg ("httPResp .Headqer= 名 ss"，， httPResPp 
9Lodgdger .Depbudg ("httPResp .Status= 名 ss"，， httPResP 


aqefer httPResp.Bodqy.Close () 
// glLogger.Info("dqefer httPResp.Bodqy.Close ad 


bodqy，erLrReadAl1lL := 1outilLl.ReadqAl1l1 (httPResp . 
//gLogger.Info("iouti1l.ReadqA1L1 aqone") 


If _ errReaaqAlL1lL != nil { 
9Logger.Warn("get respPponse for strzUCT=S 


} 
//gLogger.Debug("bodqy=gssxn"，body) 


//gcurcCcookies = httPResP.Cookies () 
pgenecCekega 生 三 本 记 EGRETT 攻 全 JS 
G9CuUrCookies = 9CurCookieJar.Cookies (httPRed . 
//gLogger.Info ("httPResp.Cookies aqone'") 


久生 shen 三 SEOGEEES 世 OOEOISEEOEEhotn" 
reSpPHtml = String(body) 
//gLogger.Info ("httPResP boqy []byte tb st 


下 全 二 这 下 全 本 王 全 二 站 有 in 


人 全 世 亲属 全 攻 下 二 让 长 三 让 瑟 DO 下 有 记 避让 是 

Var CookieNum int = Len(g9CurCookies) ， 

9Lodgdgqer.Debudg("cookieNum=gsdq"， cookieNum) 

人 OOOKNEEINOTI ET 于 | 
EeeeEaePs[1I]) 
//[/gLogger.Debug ("curCK .Raw=gs"， CuUrCK .Ra 
用 则 罗 全 ea 二 是 的 全 队 二 ee 必 谎 ss 人 eeaneale el 区 证 一 一 一 一 
gLogger.Debug ("NameAtA\t=gss" CuUrCck .Name) 
g9Loggqer.Debug("ValLueANt=sgss"， curCk .Value) 
gLogger.Debug ("PathAtANt=gss" CuUrCk.Patph) 


ddLoggqer.Debud("DomainANt=gss"，CurCck.Domai 


ddLogdgder.Depbud ("ExXPiresANt= 池 s"，， CUTCK .EXPi 
ddLoggqer.Debud ("RawEXPiresANt= 和 多 S"， CUFCK .有 
gd9Logger.Debud ("MaXAdeANt=gsdq"， CuUTCK .MaXAd 
g9Loggqer.Debug("SecureANt=SgL"， CuUrCK.Secur 
g9Logger .Debug ("HLtPOnLYANt=Sm，， CUETCK .Ht 
gd9Logdgder.Debudg ("RawANtANt= 和 SS"， CUTCK .Raw) 

gdLoggqer.Debud("UnpParsedqNt= 池 s"， CUTCK .Unp 


人 Te 忆 癌 二 iE( 的 2 


江门 EAI 本 (人 


gLogger .Info ("============ 程序 说 明 =========: 
gLogger.Info(" 功 能 : 本 程序 是 用 来 演示 使 用 Java 代 码 去 
gLogger.Info(" 注 意 事 项 : 部 分 百度 账户 ， 在 登陆 时 会 出 
gLogger .Info("l. 部 分 百度 账户 ， 在 登陆 时 会 出 现 : ") ; 
gLogger .Info(" 系 统 检测 到 您 的 帐号 疑似 被 盗 ， 存 在 安全 ， 
gLogger.Info(" 此 时 ， 本 程序 ， 无 法 成 功 模拟 登陆 ， 请 


//stepl: access baiqu Url to det cookie BAID 


gLogger.Info("====== 步骤 1 : 获得 BAIDUID 的 Cooki 
Var baiquMainUr1l string = "http://www.baidnu. 


99Lodgdgqer.Debudg("baiqdquMainUr1L=gss" baidquMainUT 
reSsSpPHtml := getUr1LIRespPHtml (baidquMainUrL，nil 
9Lodgdger .Depbudgd("FresPHtmJl=gs5s"，LrespPpHtmJl) 

本 区 下 下 工人 WEEeeess 


//check cookie 
Var bGotCookieBaiduia = false， 
//var cookieNameListITocheck []strind =| ["BAI 
//tocheckCookieNameList := [1]string{f"BAIDUII 
廿 CheckCookieNameList := []stringf"BAIDUID7"} 
七 DCheckCookieNum := Len (tocheckCookieNameLisS: 
9Lodgdgqer.Debudg("tLocheckCookieNum=gsdq"， 七 DCheck 
CUrCookieNum := Len(gCurCookies ) 
9Lodgdgqer.Debudg("curCookieNum=gsdq"， curCookieNUu: 
EC 三 本 日 OCSECKEEOOKEIENUDmD 辐 全 二 丽 
七 CCheckCKkName := 七 CheckCookieNameList [IL 
9Lodgdgqer.Debudgd(" [sd]tocheckCKkName=gSs"， 工 / 
二 
CUrCookie := Gg9CurCookies [可 ] 
If(stzrings .EqualEold (tocheckCkNamey 
DGotCookieBaidquiad = 七 Tue; 


Dreak; 


If pbpGotCookieBaiaquiad { 
9Lodgdgqer. Info("Eounadq cookie BAIDUID") ; 
}elset{ 


9Loggerc .Infto("Not founad cookie BAIDPDUID7") 


ASED22 Ce 本 有 六 SS 三 aaE EeeEREESSP Coo 


gLogger.Info("====== 步骤 2 : 提取 1login token == 

DEXtLractTokenValueoOK := false 

StzLoginToken := "" 

Var getApiResPHtm1l string; 

IE bGotCookieBaiaduiat{ 
//Lhttps://passport .baidqdu.com/v2/api/?det 
VTSTEeEESU] SiE9 汪 三 本 人 二 攻 让 SEE 人 /和 让 asSDCLt 
getApiResPHml = getUrLIResPpHLml (getapiUT 
9Lodgdgqer.Debudgd("getApiResPHLm1L=g%ss" dg9etAp 
ee 


//bdqPass.api.params.1Llogin token='2178623f 
/]/use Fregex LO extract Login 七 goKen 
//【 记 录 】go 语 言 中 用 正则 表达 式 查 找 某 个 值 


//nhttps://www.crifan.com/go _ Language_red 


JodginTokenP， := regqexp.Compile( bpdqPass 
//LoginToken := LoginTokenP .FindqSttring (d 
//lLoginToken := LoginTokenP .FindqSubmatch 
founadLodginToken := LoginTokenP .FinQStLIn 


9Lodgqer.Debudgdg("founadqLodinIToken=gss"/ foun 

If nil != foundqLodginToken { 
strLodinToken = foundqLodinToken[1] / 
9Lodgdgqer.Info("founadq bdqPass.api.param 
XecactTokenmVvatuesOke= ccUe， 

| 醒 else 且 


9Logger .Warn("”not found Loginltoken 


//step3: verify ceturnedq cookies 

bDLodginBaidquok := false'; 

If bGotCookieBaiduidq && bExtractIokenValLueOK 
gLogger .Info ("====== 步 骤 3 : 登陆 百度 并 检验 返 [ 
staticPadeUr1l := "http://Lwww.baidu.comyc 


站 总 且 二 玉 王 人 7 矶 遇 全 及 让 下 二 疝 人 二 可 全 
osDme 避 了 记 EDaSNIOOTTTEOITYISII 了 三 
7 二 有 放 o15 攻心 ol 芝 si 攻 一 ca 


OBSsEDmcelweoassfencanie yl 荐 三 时 2 


RosepetaleeekKsn 人 性 二 SECogamRoOKen 
ee” 
和 


人 GSsEDTTCEIESOI ET 


OSISSESEAEIGY 央 三 二 YOU 
Bostpaeasatencpaoge ll 基 三 到 SataseEaoeULr1] 
放风 攻 s ce 庙 攻 9 防 沁 和 = 区 肌 国定 一 党 计 二 
De 
PostDict["callback"] = "Parent .bdqPass.ap 


//【 已 解决 〗go 语 言 中 获得 控制 台 输 入 的 字符 串 
//nhttps://www.crifan.com/go 1Langduage_det. 
StLzBaidquUsername :三 "" 

SEEBamduRaSSWeEd 有 :三 汪汪 

9Lodgqdgqer. Info("Plese input:") 
9Lodgdgqer.Info("Baidu Username:") 


_ ertrl := fmt.Scanln(&strBaiadquUsernanme) 


If nil == erl 1{ 
99Lodgdgqer.Debudgd("strBaiduUsername= 池 S"v 

} 

goggernEeor RaldunEassword 9 

_， err2 := fmt.Scanln(&strBaiadquPassword) 

If nil == err2 { 


9Lodgdgqer.Debudgd("strBaidquPassworQ=S"， 


PostDict["username"] = StrBaidquUsername 
PostDict["passwordq"] = StrBaidquPassword 
ee 


PostDict["mem pass"] = "ony" 
9Lodgdgqer.Depbudgd("PostDict=gss" PostDict) 
adMamn OoiTn 避 下 天 三 本 站 DS 和 人 asSSsPport .b 
LoginBaiduRespPHtm1l := getULTLIResPHLml (bai 
9Logdgqer.Debug("1LoginBaiaduResPHLm1L= 和 SS"y 工 


QpbgoRimEeureeekaes 人 交 


//check FespP cookies exist or not 


CookieNameDict := map[string]pbpooli 
En ase 7 
下 加 了 民权 3 
SEOKENE asSe 


[ITSRAVRUSERTDO as ESEaesheted 


for CookieName， := range CookieNameDic 
for _，SsingleCcookie := fange 9g9CurCoo 
SEOeSSERSUSTRO 下 QOSeckKieNanm 

If _ cookieName == SingleCookie .Nal 
COoOKieNameDict [cookieName] = 


gd9Logget .Depbug ("EFEoundq copokie 


gd9Logger .Depbug ("AfLer check resP Coobkiey， 


DA1LLICookiesEounad := 七 TUe 
for _，bIsExist := range cookieNameDict 
DA1LLICookiesEoundad = bA1LlLCookieskFounad 
} 
bDLoginBaidquok = bAlLl1LCookiesEFounda 
OORRSTL DG 
gLogger .Info(" 成 功 模拟 登陆 百度 首页 ! "” ) ; 
}) elset 
gLogger .Info (" 模 拟 登陆 百度 首页 失败 ! ") ; 
gLogger.Info(" 所 返回 的 HTML 源 码 为 :"” + 1 


QelnitAl1() 


//【workaround】go 语 言 中 用 log4go 输 出 信息 时 有 buag : 


//[https://Lwww.crifan.com/go language_lLlog4go 
廿 ime.Sleep(100 * 七 ime.MilLllisecond) 


E: Dev_Rootvgossrc\EnulateLoginBaidu> 
:\Deu_RootAgo\src\EnulateLoginBaidu>go run EnmulateLoginBaidu-go 
[INFO1 
[INFO01 
[INFO01 
[89/217Z13 [INFO1 
[89v21z13 6] [INFO01 刍 
[B9v21z13 [INFO] | 无 法 成 功 模 青 自行 按 | 
[89/21z13 [INFO] 骤 1， 获 得 BAIDUID 的 Cookie == 
[89/217z13 TINFO1 BRIDUID 
[89/21713 [INFO] 
[89/217z13 ?1 [INFO1 
[89/217z13 [INFO1 
[89v217v13 [INFO1 
[99v21z13 [INF0] Baidu Usernanme: 


[89v21《vt3 19:12:12] [INFO] Baidqu Passworad: 


[8B9/21《13 19:12:14] [INF0] | 成 功 模拟 


虹 :\Deu_RootNgoNsFc\EmulateLoginBaidu> 


具体 过 程 详 见 : 
【记录 】 用 go 语言 实现 模拟 登陆 百度 
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用 Java 写 爬虫 


原文 : https:Wbook.crifan.org/bookS/ 
crawl_ your _ data_spider_ technology/website/ 
how_ write_spidewuse _ java/ 


Java 中 用 来 爬虫 开发 相关 的 一 些 内 置 库 有 : 
。 HTTP 网 络 库 
5 ordgd.apache .httPp 


口 ] 了 七 七 PReSsPonse 
国 NamevaluePair 


国 -cockie 


国 <cokies 


国 message 


国 Basic<NamevaluePair 


。 内 容 解 析 
O 正则 


国 JavVa.utIlL .redex 


国 Matcher 
加 Pattern 


下 面 主要 通过 例子 来 介绍 如 何 用 Java 实 现 爬 虫 。 
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Java 模 拟 登 录 百 度 首页 


原文 : https:Wbook.crifan.org/bookS/ 

crawl your_ data_spider technology/website/ 
how_ write_spidewuse _ java/ 
java_emulate _ login_baidu.html 


很 早 之 前 用 过 Java 实 现 了 模拟 百度 登录 。 


主体 代码 是 : 


/大 灵 
x [FIle] 


* EmulateLodginBaidu. java 


大 IE UTCESEGTD 证 


*x Use JUJava code to emulate Lodgin baidu 


* 【教程 】 模 拟 登 陆 百 度 之 Java 代 码 版 


x https://Lwww.crifan.com/emulate_ login baiqdqu_ us 


* [Versionl] 


0 三 作 多 三 入 


Ne = 呈 | 

x 1。needq adqdq apache httP 1Lipb: 

* 【已 解决 ] Eclipse 的 java 代 码 出 错 : The ;import org.a 
x https://www.crifan.com/Jjava_eclipse_ the impor: 
十 忆 总 本人 性 和 革 下 吉 人 下 二 区 站 冲 六 喜 


放生 Eee 可 oooEEEeomNEAcraEanlatowswansee/bro' 


|] 
ES 
SEE 证 六 全 SF 用 丽人 训 二 SECeS SS 上 内 刚 辣 -emul 


0 


/人 GE 和 ENETODeSToIEROTE 
站 几 onSE 下 的 展 了 902 和 NDS 
夸 负 imoortavautcRcCalenasar， 
的 DO a7a 本 刘 起 可 WaiEe 
//import java.util.GregorianCalenadar， 
二 UnvRasSnMaD 7 

已 人 人 加 下 疏 二 六 二 训 臣 才 避 有 由 二 个 用 区 3 芍 下 和 


SnoE 三 NE ITS 


ioomEg aa 可 本 Maio7 
ee 的 本 三 攻 和 时 册 必 区 2 eoliei < 的， 


import ]java.utilL.redgdex.MatcheL， 


开放 本 阁下 本 下 辣 基 是 记 下 下 全 本 人文 志 下 站 全 下 三 


import ordgd.apache .httpPp .HtPResponse， 
import ordgd.apache .httpPp.NameValLuePair， 


miDGTEEOEg 二 ashe 二 Netp 二 ceoOokTesEoekTE > 


//import org.apache .httpPp.implL.cookie.BasicClient 
和 mpoftEosg aacenssnEEDSTITYOTSCookieEEasTe1iesnt 


import ordgd.apache .http.messagqe.BasicNameValLuePai 


OO GREEN 


/大 大 

aeTGa 

大 

人 

Public class EmulateLodginBaidu { 


Saiee 量 cs 人 analoscm 


/大大 
x QQparam ards 
7 
eeCSEEREEC ETIERR SEEG 必 二 荆 e 人 | 构 | 


CT] 是 三 本 EWECTEEamEONOO 


// TODO Auto-deneratedq methodq stub 


EmulateLoginBaidquUsingduUava () ，; 


// emulate LIogin baiaqu using java _ code 
Publiec static voida EmulateLoginBaiadquUsingua 
{ 
System.out .println("============ 程序 说 明 
System.out .println(" 功 能 : 本 程序 是 用 来 演示 使 


System.out .println(" 注 意 事项 : 部 分 百度 账户 ，. 
System.out .println("l. 部 分 百度 账户 ， 在 登陆 时 
System.out .println(" 系 统 检测 到 您 的 帐号 疑似 被 
System.out .println(" 此 时 ,本 程序 ， 无 法 成 功 模 


boolean bLodginBaidquoOk = false'， 


List<Cookie> curCookieList， 


ASSEDE IOogn sanan oocEeooKERRBANAIDUID 
System.out .println("====== 步骤 1 : 获得 BAID 
Strindg StrTokenVvValue = "")/ 

boolean jbGotCookieBaidquiad = false'; 
Sm 本 S 七 二 有 3TQUUT| 三 本 7 二 世人 下 区 7WWRDRiau .ec 
HttPResponse baidquRespP = crl1.getUrLRespo 


CULTrCookieList =CcrlL.getCurCookieStore () .9 
人 RESReUOeeeERET Us strBa 
EGGCoOoKOEEECEKE ECUsEeokEmsi) 
{ 

String cookieName = ck.getName () ， 

If (cookieName .edquals ("BAIDUID" ) ) 

{ 

DGotCookieBaiduiad = 七 Tue; 


】 
If (bpGotCookieBaiaduid) 


{ 
System.out .println(" 正 确 :已 找到 cookie 


ese 


System.out .println(" 错 误 : 没有 找到 cook; 


//step2: login，Ppass Paras， extrac+ resP 
System.out .brintln("====== 步骤 2 : 提取 1ogi 
Doolean pbExtractIokenVvValLueoOK = false，; 
If (bGotCookieBaidquid) 
{ 
//Lnhttps://passport .baidqu.com/v2/api/ 
SaigEgeEaB 王 Wi 三 省 几 有 志 ES DaSsPot 
Strindg getApiRespPHtml = crlL.getUr1LIRe 


CULrCookieList =CrlL.getCurCookieStore 


人 est， 可 


//bdqPass.api.params.1Llodgin token='3cf 
Pattern 七 OKenValP = Pattern.Ccompile (人 
Matcher 七 OKenValMatcher = 七 OKenhValP .: 
//boolean founadTokenValue = 七 okenVal 


poolean founadTokenvalue = 廿 KenValLMa. 


1Ift(foundTokenValLue) 
{ 
StLrTOoKenValue = 七 OKemnValLMatcher . 


System.out .println(" 正 确 : 找到 baqP 


DEXtLactTokenVvValLueOK = 七 CUe; 


ese 


人世、 己 


System.out .pzintln(" 错 误 : 没 找到 bd 


//step3: verify returneq cookies 
If (pbGotCookieBaiduid && bExttractTITokenVa. 
{ 

System.out .println("====== 步 骤 3 : 登陆 F 


/六 
//Note : 
//here， has verify，not manuallLy upd 


//also can emulate baiqu successful1l 


//dqo some workarounad to makesutre her 


ATYefsaon 0 inmame HPSoPSSID] [val: 


AUOEESe 记 本 国清 计 洒 区 乞 98 十 人 SAT E 思 0 有志 
//Date newExpiryDate = new Date(2043 
Date PnewExpPiryDate = new Date (143， 9 


//Ccalenqdqar newExpiryCcalenqdqar =| new G 


BasicClientCookie hPsPssidqCookie = mn 


BasicClientCookie qdqbsvrtmCookie = nu 


CGO 


CULTrCOookieList = CrlL.getCurCookieList 
EGGeookKTeEcKEE cuUFEoOoKRETDSs 
{ 

If (ck.getName () .equalsIdgonoreCase 


{ 
//hPsPssidqCcookieIdx = CurCoo 
PhPSPssidCookie = (BasicClien- 
PhPsPssidqCookie.setExpPiryDate 
ck = hPsPssiqCcookie'; 


]IBTFeEaE 
} 
If (ck.getName () .equalsIdonoreCase 
{ 

qdqbsvrtmCookie = (BasicClient 


QbsvrtmCookie.setDomain (" .ba 
dqbSsVtmCookie.setExPiryDate ( 
CK = qpbpsvtrtmCookie， 


//Dpbreak; 
} 


Cr .setCurCookieList (CurCookieList) : 


这 六 


StLing staticPageUr1lLl = "http://www.b 


List<NameValLuePair> PostDict = new A 
//ArrayList<NameValuePair> heaQerDic 
//postDict.add(new BasicNameValuePai 
PostDict.add (new BasicNameValLuePair ( 
//postDict.add(new BasicNameValuePai 
PostDict.add (new BasicNameValLuePair ( 


PostDict.add (new BasicNameValLuePair ( 


PostDict.add (new BasicNameValLuePair ( 
//postDict.add(new BasicNameValuePai 
//postDict.add(new BasicNameValuePai 
PostDict.add (new BasicNameValLuePair ( 
PostDict.add (new BasicNameValLuePair ( 
PostDict.add (new BasicNameValLuePair ( 


PostDict.add (new BasicNameValLuePair ( 


//get input baiqdu username andql passwt 


Stzing srczBaiauUsername = 三 "7" 7 
Smg 三 SEEBaeRESaSSWOIEG 三 王 2 人 
Scanner inpPutReader = new Scanner (SyY 


System.out .Println("PlLlease Enter You 
司 区 全 王 和 三 记 站 TO BedOUuUSsEeEmname :" 
StLrBaiduUsername = 1InputReader.nextD 
OpenmRoUEEDCO DECYOUEEREEEead Us 
全 和 局 志 六 二 Sord: 
StLrBaiduPassword = inputReader .nextD 
//System.out .Println(n"You Entetedq Pa 


ImnPutReadaer. .close(); 


PostDict.add (new BasicNameValLuePair ( 


PostDict.add (new BasicNameValLuePair ( 


PostDict.add (new BasicNameValLuePair ( 


PostDict.add (new BasicNameValLuePair ( 


St 全 汪 司 SSGIINMSS 玫 O 可 下 厅 开放 本 三 汪 光 ntEFDPs: /7/ 
String LoginBaidquRespPHLml = CrlL.dgetU 


//MapPp cookieNameDict = new Map () ; 
//MapP cookieNameDict = new Hashtable 
HashMap<oObject，Boolean> cookieNameD 
COokieNameDict.Put("BDUSS"，false) ， 
CCoKLeNameDRITCEE ED ETOKRN2 EBPlSse) :; 
COoOkieNameDict.Put("STOKEN"，false) ， 
//Set-Cookie: SAVEUSERID=delLeted; exX] 
//cockieNameDict.Put("SAVEUSERID"，， Ef 


CULTrCOookieList = CrlL.getCurCookieList 
for (Object objCcookieName : cookieNamt 
{ 

StLing StzrCookieName = ob]jCookie 


人 ONiCBOGKE 且 名 | 有 -本 CU 您 刀 提 长 用 玫 aS 七 ) 


{ 


IE (StrCookieName .edqualLsIgnor 


{ 


COokieNameDict.PutI(strCo 


boolean bAlL1LCookiesEFound = true， 
OObaeEccEobaREounacunCooknel : coc 


{ 

bpA1L1CookiesEounad = bA1L1LICookiesEo 
bDLoginBaidquok = bA1L1LCookiesEounad; 
EGGOky 
{ 


System.out .println(" 成 功 模 拟 登 陆 百 / 


ese 


System.out .println(n 模 拟 登陆 百度 首 ; 
System.out .println(n" 所 返回 的 HTMI 源 


em 


成 功 模拟 登陆 百度 ， 输 出 效果 截 


国 Console 器 交 Task 

Lee 由 GpaiaslaginBaiuflaaAppcaionl CNrogm FleanaNieybNaawee Gep 37 23093624 的 Pi 
= 程序 阅 明 == 
功能 : 本 程 记 是 用 来 演示 使 用 Java 代码 去 实现 模拟 登陆 百度 

注意 事项 : 部 分 百度 账户 ， 在 登陆 时 会 出 现 : 

工 部 分 百度 账户 ， 在 登陆 时 会 出 现 : 

系统 检测 到 您 的 帐号 疑似 被 盗 ,存在 安全 风险 。 请 尽快 修改 密码 。 

此 时 ， 李 程序， 无 法 成 功 模拟 登陆 ， 人 生生 就 可 以 了 .。 
== 步骤 1 : 获得 BAIDUID 的 Cookie 
Cookies for httpy/www .baidu.comy 
version: 0]Iname: BAIDUIDIvalue: 3DA8C089EF6FA207330ED367910F6A28:FG=1][domain: .baidu.comj[path: /][expiry: Thu Sep 17 18:21:56 CST2043] 
[version: 0]Iname: BDSVRTM]value: 1]Idomain: www.baidu.comj[path: /expiry: nu 由 

version: 0]Iname: H_PS_PSSIDIvalue: 3361_.2777_1459_3090][domain: .baidu.comjIpath: /][expiry: nu 几 

正确 : 已 找到 cookie BAIDUID 
步骤 2 : 提取 Ilogin_token 
Cookies for httpsy//passportbaidu.com/v2/api?getapi&tclass=login&tpl=mn&ttangram=true 

[version: 0]Iname: BAIDUIDIvalue: 3DA8C089EF6FA207330ED367910F6A28:FG=1][domain: .baidu.comj[path: /expiry: Thu Sep 17 18:21:56 CST2043] 
[version: 0][name: BDSVRTM][value: 1]Idomain: www.baidu.coml[path: /expiry: nu 几 

Eversion: 0]Iname: HOSUPPORTIvalue: 1][domain: passportbaidu.comj[path: /expiry: Sat Dec 04 18:21:56 CST 2021] 

Eversion: 0]Iname: H_PS_PSSIDIvalue: 3361_2777_1459_3090][domain: .baidu.comj[path: /][expiry: nul 

正确 : 找到 bdPassapiparamsogin_ token=2871afec355419ab54ced25d5aef84dd 

== 步 骤 3 : 登陆 百度 并 检验 返回 的 Cookie == 
Please Enter Your 

Baidu Username: 


Baidu Password: 


EEC 
成 功 模 拟 登 陆 百 度 首页 ! 


完整 的 Eclipse 项 目 源 码 下 载 
EmulateLoginBaidu_java_2013-09-17_crifanLibVersi 
O 〇 注意 事项 
国 需要 导入 org.apache.http 的 库 


国 详 见 : 【已 解决 】Eclipse 的 
java 代 码 出 错 : The import 
org.apache cannot be resolved 

国 其 中 用 到 的 -rifanLib 的 java 代 码 详 
见 


图 crifanLib.java 
国 部 分 百度 账户 ， 在 登陆 时 会 出 


现 系统 检测 到 您 的 帐号 疑似 被 盗 ， 存 在 安全 风险 。 
此 时 本 程序 无 法 成 功 模拟 登陆 ， 请 自 

行 按照 提示 去 修改 密码 后 ， 即 可 成 功 
模拟 登录 


具体 过 程 详 见 : 
【教程 】 模 拟 登 陆 百 度 之 Java 代 码 版 
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用 PHP 写 爬虫 


原文 : https:/book.crifan.org/bookSs/ 
crawl your_ data_spider technology/website/ 
how_write_spidervuse_php.html 


整理 之 前 找 的 一 点 相关 资料 : 
PHP 的 爬虫 相关 库 或 框架 : 


。 PHPCrawl webcrawler library/framework 
。 PHP HTTP protocol client 
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附录 


原文 : https:/book.crifan.org/bookSs/ 
crawl your_ data_spider technology/website/ 
appendiX/ 


下 面 列 出 相关 参考 资料 。 
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名 词 解 和 


原文 : https:Wbook.crifan.org/bookS/ 
crawl your_ data_spider technology/website/ 
appendixterminology_concept.html 


页 面 爬 取 委 略 = 爬虫 豆 略 


在 爬虫 系统 中 ,等 待 抓 取 URL 队 列 是 很 重要 的 组 成 部 
分 ,等 待 抓 取 URL 队 列 中 的 URL 的 顺序 排列 方式 也 是 
一 个 很 重要 的 问题 ,因为 这 会 决定 到 先 抓 取 哪 个 页 面 ， 
后 抓 取 哪 个 页 面 .而 决定 这 些 URL 排 列 顺 序 的 方法 , 叫 
做 抓 取 策略 .下 面 主要 介绍 几 种 常见 的 抓 取 豆 略 : 


。 深度 优先 遍历 策略 


O 深度 优先 饥 历 策 略 是 指 网 络 爬 虫 会 从 起 始 
页 开始 ,一 个 链接 一 个 链接 跟踪 下 去 ,直到 
处 理 完 这 条 线路 之 后 才 会 转 入 下 一 个 起 始 
页 ,继续 跟踪 链接 . 坎 历 的 路 径 为 : A-F-G 
,E-H-|,B ,C, D 
。 宽度 优先 遍历 策略 


O 宽度 优先 饥 历 策略 的 基本 思路 就 是 ,将 新 下 
载 网 页 中 发 现 的 链接 直接 放 入 待 抓 取 URL 
队列 的 末尾 .也 就 是 说 网 络 爬 虫 会 优先 抓 取 
起 始 网 页 中 链接 的 所 有 网 页 ,所 有 网 页 都 抓 
取 完 之 后 ,再 选择 其 中 的 一 个 链接 网 页 , 继 
续 抓 取 在 此 网 页 中 链接 的 所 有 网 页 . 它 的 路 
径 可 以 这 样 与 :A-B-C-D-E-F ,G ,H,1 

。 反 向 链接 数 策略 


O 反 向 链接 数 是 指 一 个 网 页 被 其 他 网 页 链接 
指向 的 数量 ,同时 反 向 链接 数 也 是 表示 一 个 
网 页 的 内 容 受 到 其 他 人 的 推荐 的 程度 . 因 
此 ,很 多 时 候 搜 索引 擎 的 抓 取 系统 会 使 用 这 
个 指标 来 评价 网 页 的 重要 程度 ,从 而 决定 不 
同 网 页 的 抓 取 先后 顺序 . 

O 而 然 在 真实 的 网 络 环境 中 ,由 于 许多 广告 链 
接 、 作 弊 链接 等 等 的 存在 , 反 向 链接 数 不 能 
完全 等 同 于 重要 程度 .因此 ,许多 的 搜索 引 
和 擎 往往 考虑 一 些 可 靠 的 反 向 链接 数 . 

。 OPIC 策 略 策略 


〇 O 这 种 算法 实际 上 也 是 对 网 络 页 面 进 行 一 个 


要 性 的 打分 .在 算法 开始 前 ,会 给 所 有 页 
面 一 个 相同 的 初始 现金 (cash ) .当下 载 


了 某 个 页 面 P 之 后 ,将 P 的 现金 分 摊 给 所 有 
从 P 中 分 析出 的 链接 ,并 且 将 P 的 现金 清空 . 
对 于 待 抓 取 URL 队 列 中 的 所 有 页 面 按 照 现 
金 数 进行 排序 

。 大 站 优先 策略 


O 对 于 待 抓 取 URL 队 列 中 的 所 有 网 页 ,根据 所 
属 的 网 站 进行 分 类 .对 于 竺 下载 页 面 数 多 的 
网 站 , 优 务 下 载 .这 个 筑 略 也 因此 叫做 大 站 
优先 策略 
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